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多 核 体系 结构 的 出 现 使 工程 师 和 计算 机 系统 设计 师 变 得 日 
益 重 要 。 本 书 着 重 论述 并 行 见 象 ， 并 分 析 为 何 这 些 现象 是 成 功 


进行 并 行程 序 设计 的 机 遇 或 | 
本 书 是 高 等 院 校 计 算 机 专业 高 年 级 本 科 生 或 低 年 级 研究 生 的 理想 教科 书 ， 同 时 也 是 专 
业 程 序 员 从 事 并 行程 序 设计 的 理想 入 门 书 。 


本 书 特色 
e 以 原理 第 一 的 原则 重点 阅 述 并 行 计算 的 基本 原理 ,而 不 是 指导 读者 “如 何 ” 去 管理 
当前 商品 化 的 并 行 计算 机 。 
© 以 原理 为 背景 讨论 流行 的 程序 设计 语言 并 论述 当代 并 行 计算 机 编程 所 使 用 的 工具 。 
e 使 用 注释 框 对 书 中 所 提 及 的 内 容 进行 饶 有 兴趣 的 扩展 。 
o 使 用 定义 框 对 书 中 关键 词 和 概念 进行 定义 。 
e 每 章 附 有 习题 ， 便 于 读者 掌握 所 论述 的 概念 。 
© 第 10 章 着 重 论述 可 能 影响 该 研究 领域 未 来 的 当前 进展 
@ 第 11 章 为 读者 构造 告 实际 的 并 行程 序 提供 第 一 手 的 实践 Zi 
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本 书 内 容 新 颖 ， 涉 及 现代 并 行 硬件 和 软件 技术 ， 包 括 多 核 体 系 结构 及 其 并 行程 序 设计 
技术 。 本 书 侧重 论述 并 行程 序 设计 的 原理 ， 并 论述 了 并 行程 序 设计 中 一 些 深层 次 问题 ， 如 
可 扩展 性 、 可 移植 性 以 及 并 行程 序 设 计 应 遵循 的 方法 学 等 。 

本 书 是 高 等 院 校 计算 机 专业 高 年 级 本 科 生 或 低 年 级 研究 生 的 理想 教科 书 ， 同 时 也 是 专 
业 程序 员 从 事 并 行程 序 设 计 的 理想 人 门 书 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 证 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 遵 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 村 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 了 珍藏。 大理石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 时 力 衷 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 
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早 在 1842 年 ， 意 大 利 数学 家 Luigi Menabrea 就 在 其 《查尔斯 . 巴 贝 奇 的 分 析 引 警 》 
(«Sketch of the Analytical Engine Invented by Charles Babbage)) 一 文中 阐述 了 并 行 的 理念 。 
他 的 这 篇 文章 涉及 计算 机 系统 结构 和 程序 设计 的 诸多 方面 。 到 了 1958 年 ，S.Gill 针 对 并 行程 序 
设计 进行 了 探讨 ， 而 IBM 的 John Cocke 和 Daniel Slotnick 则 针对 并 行 数 值 计算 进行 了 探讨 。 然 
而 直到 1962 年 ， 第 一 台 多 处 理 计算 机 才 藉 由 Burroughs 公 司 的 D825 而 面世 。 此 后 ， 为 数 众多 的 
公司 提出 并 推出 了 不 同系 统 结构 的 多 处 理 器 系统 。 

曾几何时 ， 工 业界 和 学 术 界 进行 了 无 数 次 的 尝试 ， 力 图 将 并 行程 序 设计 置 于 主流 程序 设 
计 的 核心 地 位 ， 但 由 于 种 种 原因 ， 这 些 尝试 最 终 都 未 能 取得 成 功 。 最 主要 的 原因 在 于 我 们 既 
然 有 能 力 将 处 理 器 的 主 频 每 12~ 18 个 月 就 增加 一 倍 ， 因 此 除了 那些 依赖 于 大 规模 并 行 系统 来 
加 速 其 模拟 运算 的 科学 社团 外 ， 其 他 人 就 几乎 找 不 到 任何 理由 来 编写 并 行程 序 。 

然而 近来 ， 半 导体 工业 界 与 微 处 理 器 供应 商 却 遭 遇 到 了 屏障 ， 即 虽然 我 们 依然 能 增加 芯 
片 的 密度 ， 但 却 再 也 无 法 增加 主 频 。 有 鉴于 此 ， 多 核 处 理 器 开始 登场 ， 比如 Sun 的 Niagara 系 
列 ，IBM 的 Power 系 列 ，AMD 的 Opteron， 以 及 Intel 的 Xeon。 事 实 上 ， 供 应 商 们 未 来 将 会 提供 
时 钟 速度 更 低 但 核 数 更 多 的 处 理 器 ， 如 Intel 的 Nehalem 以 及 AMD 的 Istanbul。 此 外 ， 其 他 形式 
的 加 速 器 也 纷纷 登场 ， 例 如 GPGPU (如 Nvidia 的 Tesla，AMD 的 Firestream ， Intel 的 Larabee ) , 
Cell 处 理 器 ， 以 及 EPGA。 

这 就 意味 着 ， 为 了 能 充分 利用 多 核 处 理 器 ， 我 们 必须 寻找 应 用 内 在 的 并 行 性 ， 必 须要 编 
写 具 有 并 行 线程 的 代码 。 我 们 已 然 预见 到 串 行 程序 会 “逐渐 减速 "， 以 此 观 之 ， 似乎 并 行程 序 
设计 的 概念 终 将 成 为 未 来 主流 程序 员 所 必须 掌握 的 重要 概念 。 

《并 行程 序 设计 原理 》 一 书 对 学 生 以 及 初学 者 将 颇 有 神 益 。 两 位 作者 Calvin Lin 和 
Lawrence Snyder 非 常 细 致 地 将 各 种 原则 与 当前 的 并 行 硬 件 和 软件 场景 联系 了 起 来 ， 使 得 本 书 
既 能 扎根 于 计算 机 科学 的 基础 ， 又 能 与 时 俱 进 。 这 本 全 新 的 可 实践 且 实 用 的 书 ， 必 将 使 得 阅 
读 引 人 入 胜 且 充满 趣味 。 

本 书 着 力 介 绍 一 系列 不 同类 型 的 程序 设计 工具 ， 如 在 共享 存储 器 程序 设计 中 介绍 了 
Pthread, Java Threadsl 以 及 OpenMP， 而 在 消息 传递 程序 设计 中 将 MPI 作 为 局 部 视图 语言 的 代 
表 ， 并 提 及 了 UPC 等 PGAS 语 言 ， 而 将 ZPL 作 为 全 局 视图 语言 的 典范 ， 此 外 还 提 及 了 3 个 最 新 
的 并 行程 序 设计 语言 ， 即 Sun 的 Fortress，IBM 的 X10， 以 及 Cray 的 Chapel。 

本 书 还 探讨 了 一 些 高 级 内 容 ， 比如 “理想 ”的 并 行程 序 设计 语言 所 应 遵循 的 基本 原则 ， 
并 行 软件 开发 的 方法 学 和 方式 ， 如 在 敏捷 软件 开发 中 最 常用 的 增 量 式 开发 。 

本 书 无 论 对 于 积极 进取 的 HPC 业 内 人 士 来 说 ， 还 是 通用 程序 员 而 言 ， 都 是 一 本 极 具 价值 
的 参考 书 。 总 之 ， 这 本 可 靠 而 翔实 的 书 探讨 了 整个 社团 所 将 面临 的 有 关 并 行 化 的 挑战 与 问题 . 
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随 着 多 核 体系 结构 的 出 现 和 快速 发 展 ， 使 得 并 行 计算 科学 的 硬件 基础 设施 发 生 了 很 大 变 
化 ， 如 果 把 并 行 硬 件 基础 设施 看 成 是 “经 济 基础 "， 则 其 相应 的 上 层 并 行 软件 就 可 以 视 为 “上 
层 建筑 。 由 于 “经 济 基础 ”的 变化 ， 作 为 其 中 重要 的 “上 层 建筑 ”之 一 的 并 行程 序 设计 技术 ， 
必须 进行 相应 的 变化 以 适应 新 的 “经 济 基础 *。 因 此 如 何在 多 核 体系 结构 上 进行 高 效 的 并 行程 
序 设计 以 充分 利用 多 核 所 提供 的 硬件 并 行 性 ， 从 而 大 幅度 地 提升 并 行 计算 性 能 指标 就 显得 非 
常 重要 。 本 书 的 主要 论题 之 一 便 是 环绕 这 一 问题 展开 的 。 

并 行程 序 设计 比 顺序 程序 设计 要 困难 得 多 ， 一 是 因为 并 行程 序 设计 的 平台 不 是 唯一 的 ， 
存在 多 种 不 同 的 并 行 体系 结构 ， 而 顺序 程序 设计 只 有 唯一 的 冯 . 诺 依 曼 体系 结构 ， 二 是 因为 
并 行程 序 有 多 个 进程 或 线程 在 同时 运行 ， 它 们 之 间 往 往 需要 进行 通信 和 同步 ， 这 就 使 并 行程 
序 设计 变 得 复杂 ， 特 别 是 在 要 获得 线性 加 速 比 时 尤为 如 此 ， 三 是 因为 并 行程 序 设计 没有 顺序 
程序 设计 中 如 C 及 Java 那 样 通用 和 普及 的 并 行程 序 设计 语言 ， 因 此 只 能 针对 不 同 的 体系 结构 先 
择 使 用 不 同 的 并 行 语言 或 例 程 库 ， 例 如 对 于 共享 地 址 空间 的 体系 结构 就 必须 选择 如 OpenMP、 
Java Threads 或 POSIX Threads 那 样 的 语言 ， 而 对 于 分 布地 址 空间 的 体系 结构 就 不 得 不 选择 如 
MPI 或 PVM 那 样 的 例 程 库 语言 。 此 外 车 要 开发 数据 并 行 性 ， 则 就 需要 选用 高 性 能 的 如 Fortran 
(HPF) 那样 的 语言 。 本 书 另 一 个 主要 论题 便 是 环绕 这 一 问题 展开 的 。 

本 书 侧重 论述 并 行程 序 设计 的 基本 原理 ， 解 释 各 种 现象 ， 并 分 析 为 何 这 些 现象 意味 着 成 
劝 进行 并 行程 序 设计 的 机 遇 或 是 阻碍 。 并 行 的 硬件 基础 设施 和 并 行 的 软件 设计 环境 随 着 时 间 
的 变迁 会 不 断 发 生变 化 ， 但 原理 则 永远 不 会 过 时 。 以 原理 作为 第 一 要 素 进行 论述 是 本 书 的 特 
色 之 一 。 

本 书 的 另 一 个 特色 是 ， 它 侧重 可 扩展 性 和 可 移植 性 ， 即 所 设计 的 并 行程 序 具 有 在 任何 数 
是 处 理 器 系统 上 和 在 任何 并 行 体系 结构 平台 上 运行 良好 的 能 力 。 这 一 概念 在 多 核 时 代 是 非常 
关键 的 ， 这 是 因为 ， 首 先 ， 使 得 并 行 计算 具有 可 扩展 能 力 的 大 多 数 技术 与 在 多 核 芯片 上 生成 
高 效 求解 的 技术 是 相同 的 ， 其次， 虽然 目前 的 多 核 芯片 所 具有 的 处 理 器 数目 还 比较 小 ， 通 党 
是 2 一 8 个 ， 但 今后 每 个 芯片 上 的 核 数 将 会 急剧 增加 ， 这 就 使 得 可 扩展 并 行 概念 与 之 直接 相 
Kes 最 后 ， 显 然 我 们 应 该 侧重 研究 和 开发 那些 在 现在 和 将 来 都 能 很 好 工作 的 方法 。 

内 容 非常 实用 是 本 书 的 又 一 特色 。 这 是 因为 本 书 在 介绍 并 行程 序 设计 系统 的 同时 ， 还 叙 
述 如 何在 这 些 系 统 中 应 用 并 行程 序 的 设计 原理 。 作 者 通过 自身 丰富 的 实践 经 验 为 读者 介绍 了 
在 从 事 并 行程 序 设计 时 应 遵循 的 方法 学 。 译 者 认为 从 事 并 行程 序 设计 者 应 注重 对 并 行程 序 设 
计 方 法 学 的 了 解 、 掌 握 ， 以 及 有 关 素质 的 培养 ， 唯 此 才能 开发 出 性 能 良好 以 及 生命 力 持久 的 
并 行程 序 ， 并 提高 编制 并 行程 序 的 能 力 和 生产 率 。 

翻译 本 书 的 原因 有 两 个 : 一 是 本 书 的 内 容 相当 新 ， 涉 及 现代 的 并 行 硬件 和 软件 技术 ， 包 
插 多 核 体系 结构 及 其 并 行程 序 设计 技术 ， 二 是 本 书 论述 了 并 行程 序 设计 中 的 一 些 深层 次 问题 ， 
如 可 扩展 性 、 可 移植 性 以 及 并 行程 序 设计 应 遵循 的 方法 学 等 。 本 书 的 不 足 之 处 在 于 对 一 些 性 
能 问题 的 定量 分 析 不 够 充实 ， 此 外 所 介绍 的 并 行 机 抽象 模型 也 不 够 全 面 ， 只 有 一 个 CTA 模 型 。 
但 这 些 环 疫 并 不 会 影响 本 书 的 阅读 价值 。 
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本 书 是 计算 机 科学 专业 本 科 高 年 级 学 生 或 一 年 级 硕士 生 的 理想 教科 书 ， 对 专业 程序 员 来 
讲 则 是 从 事 并 行程 序 设计 的 一 本 理想 入 门 书 。 本 书 对 软件 工程 师 和 计算 机 系统 设计 师 也 是 非 
常 值得 一 读 的 参考 书 。 

本 书 的 翻译 工作 由 陆 侈 达 教授 负责 和 组 织 。 陆 侈 达 教 授 翻 译 了 目录 、 前 言 、 第 1~4 章 以 
及 第 10~11 章 ， 林 新 华 老师 翻译 了 第 5~9 章 。 译 稿 全 文 由 陆 铭 达 教 授 统 稿 审 校 。 原 书 只 分 章 不 
分 节 ， 为 方便 读者 阅读 ， 我 们 统一 进行 了 分 节 。 值 此 中 译本 出 版 之 际 ， 译 者 特 向 机 械 工业 出 
版 社 华 章 公 司 的 策划 和 编辑 人 员 表 示 深 切 的 谢意 。 

书 中 的 术语 翻译 ， 我 们 尽量 采用 已 公布 的 计算 机 科学 技术 名 词 《第 二 版 )， 对 于 一 些 未 公 
布 的 术语 (包括 一 些 新 出 现 的 术语 ) 我 们 尽量 采用 流行 的 译 法 。 由 于 时 间 较 为 仓促 ， 翻 译 中 
的 错误 或 不 妥 之 处 在 所 难免 ， 敬 请 广大 读者 不 吝 指 正 。 
致谢 

在 本 书 行将 付 梓 之 前 ， 承蒙 Sun 公 司 高 性 能 计算 及 云 计算 技术 中 心 主任 兼 首席 科学 家 
Simon See 博 士 拨 元 为 本 译 著 撰 写 了 推荐 序 ， 在 此 仅 表 深切 的 谢意 ! 


上 海 交 通 大 学 计算 机 科学 与 工程 系 
hE 林 新 华 
2009 年 6 月 10 日 





对 于 那些 因 多 核 芯片 出 现 而 激发 起 学 习 并 行程 序 热情 的 读者 来 说 ， 你 找 对 了 地 方 。 本 书 
是 为 并 行 计算 机 无 处 不 在 的 这 个 世界 而 编写 的 ， 这 种 并 行 计算 机 涉及 广泛 ， 从 具有 两 核 芯 片 
的 膝 上 计算 机 ， 到 超级 计算 机 ， 再 到 用 于 搜索 因特网 的 巨大 数据 中 心机 群 。 

本 书 侧重 可 扩展 并 行 ， 即 并 行程 序 具有 在 任何 数目 处 理 器 上 运行 良好 的 能 力 。 这 一 概念 
是 非常 关键 的 ， 原因 有 二 : (1) 创建 可 扩展 并 行 计算 所 需 的 大 多 数 技术 与 在 多 核 芯片 上 生成 
高 效 求 解 的 技术 是 相同 的 ， (2) 目前 的 多 核 芯 片 具有 适中 数目 的 处 理 器 ， 通 常 是 2 一 8 个 ,在 
本 来 几 年 内 每 个 芯片 上 的 核 数 肯定 会 急剧 增加 ， 这 就 使 得 可 扩展 并 行 概念 与 之 直接 相关 。 因 
而 ， 尽 管 今天 的 多 核 芯 片 为 核 间 低 时 延 通信 提供 了 机 遇 ， 但 这 种 特性 很 可 能 只 能 在 短期 内 得 
益 ， 因 为 当世 片上 的 核 数 增长 时 ， 芯 片 内 不 同 部 分 的 片 内 延迟 将 明显 增加 。 所 以 ， 我 们 不 会 
侧重 开发 这 种 短期 得 益 的 方法 ， 而 是 侧重 那些 能 在 现在 和 将 来 都 能 很 好 工作 的 方法 。 当 然 ， 
多 核 芯 片 还 面临 着 自身 的 挑战 ， 特 别 是 它们 有 限 的 片 外 存储 器 带宽 ， 以 及 有 限 的 片上 总 的 
cache 容 量 。 本 书 也 将 讨论 这 些 问题 。 

首先 ， 我 们 讨论 构成 实用 和 高 效 并 行程 序 的 原理 。 为 了 获取 如 程序 设计 那样 复杂 的 能 力 ， 
学 习 原 理 是 至 关 重要 的 。 当 然 ， 对 于 并 行程 序 设计 来 讲 ， 原 理 也 许 更 加 重要 ， 因 为 最 新 技术 
水 平 的 变化 很 快 。 如 果 训 练 过 于 紧密 地 捆绑 于 某 个 特定 的 计算 机 系统 或 一 种 语言 ， 将 不 具有 
跟 上 技术 发 展 步 伐 的 支撑 力 。 可 是 原理 (应 用 于 任何 并 行 计算 系 统 的 概念 以 及 开发 这 些 特征 
的 观念 ) 对 人 们 深入 理解 和 掌握 相关 知识 将 提供 深远 的 影响 ， 

但 我 们 并 不 会 止步 于 对 抽象 概念 的 讨论 ， 还 会 将 那些 原理 应 用 到 日 常 的 计算 中 ， 这 将 使 
本 书 非常 实用 。 我 们 将 介绍 几 个 并 行程 序 设计 系统 ， 还 将 描述 在 程序 设计 系统 中 如 何 应 用 这 
些 原理 。 我 们 期 望 读者 在 读 完 本 书后 能 编写 并 行程 序 。 在 最 后 一 章 我 们 将 专门 讨论 并 行程 序 
设计 技术 ， 以 及 介绍 如 何 开 发 一 个 有 关 并 行程 序 设计 的 结 课 课程 设计 ， 这 个 设计 可 能 需要 万 
时 一 个 学 期 。 


读者 对 象 


读者 对 象 可 以 是 任何 人 ， 大 学 生 或 专业 人 员 ， 只 要 他 能 用 C 或 类 似 语言 成 功 进行 编程 ， 以 
及 自 认 为 是 程序 员 的 人 。 如 果 有 具有 计算 机 执行 顺序 程序 的 概念 ， 包 括 取 指 /执行 周期 以 及 高 速 
缓存 基础 的 知识 ， 则 就 更 易 理解 本 书 的 内 容 。 本 书 最 初 的 定位 是 计算 机 科学 专业 的 高 年 级 学 
生 以 及 具有 计算 机 科学 学 士 学 位 的 一 年 级 研究 生 ， 现 在 本 书 仍然 适合 这 一 程度 。 然 而 ， 作 为 
本 书 的 宗旨 ， 我 们 减少 了 对 预备 知识 的 要 求 ， 而 强调 对 知识 的 传授 ， 如 果 读者 已 经 掌握 某 些 
解释 所 涉及 的 知识 ， 只 需 跳 过 这 些 知 识 。 : 


本 书 结构 


因为 并 行程 序 设计 并 不 是 读者 所 熟悉 的 顺序 程序 设计 的 直接 扩展 ， 所 以 我 们 将 本 书 分 为 
四 部 分 : 
基础 : 第 1 ~ 3 
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并 行 抽象 : $4~-SHB 

并 行程 序 设计 语言 ， 第 6~ 9 章 

展望 : 第 10 一 11 章 

为 使 读者 能 明智 地 从 中 选择 感 兴趣 的 部 分 ， 我 们 下 面 说 明 各 部 分 的 目的 和 内 容 。 

基础 ”在 第 1 章 中 ,我 们 通过 实现 一 个 计算 说 明 并 行程 序 员 必 须 处 理 的 许多 问题 是 多 么 困 
难 ， 而 在 为 顺序 计算 机 编写 同样 的 程序 时 则 非常 简单 。 该 例子 将 我 们 的 注意 力 集中 到 一 些 贯 
穿 于 全 书 与 我 们 相关 的 论题 , 但 它 也 强调 了 解 并 行 计算 机 是 如 何 操作 的 重要 性 。 第 2 章 介绍 5 种 
不 同类 型 的 并 行 计 算 机 ， 描 述 了 其 体系 结构 中 的 少量 细节 ， 以 及 它们 扩展 到 更 大 规模 的 能 
在 这 一 章 中 得 出 了 两 个 关键 的 结论 : 第 一 ， 不 像 顺序 计算 ， 并行 计 算 机 没有 一 个 标准 的 体系 
结构 。 第 二 ， 为 了 能 适应 这 种 体系 结构 的 多 样 性 ， 我 们 需要 一 个 抽象 的 机 器 模型 以 指导 我 们 
的 程序 设计 。 我 们 给 出 了 一 个 抽象 模型 。 在 留意 体系 结构 的 基础 上 ， 第 3 章 的 内 容 涉及 并 发 性 
(包括 线程 和 进程 )、 时 延 、 带 宽 、 加 速 比 等 基本 概念 ， 侧 重 叙述 与 性 能 相关 的 问题 。 第 一 部 
_ 分 这 些 基础 内 容 为 第 二 部 分 讲解 算法 和 抽象 做 好 了 准备 。 

并 行 抽 象 ”为 支持 并 行 算法 的 设计 和 讨论 ， 第 4 章 为 编写 独立 于 语言 的 并 行程 序 引 入 了 一 
个 非 正式 的 伪 代 码 符 号 。 访 符号 具有 跨 各 种 程序 设计 模型 和 方法 的 许多 特性 ， 允 许 我 们 在 讨 
论 算 法 时 不 会 偏向 任何 具体 的 语言 或 机 器 。 为 了 引导 读者 考虑 并 行 算法 ， 第 5 章 介绍 了 一 系列 
的 基本 算法 技术 。 在 阅读 完 第 二 部 分 后 ， 读 者 将 掌握 以 并 行 方式 求解 问题 的 方法 ， 从 而 可 使 
我 们 进入 最 后 一 个 问题 ， 即 以 一 个 具体 的 并 行程 序 设计 语言 来 编码 算法 。 

并 行程 序 设计 语言 ”还 没有 一 种 并 行程 序 设计 语言 ， 能 够 如 C 或 Java 在 顺序 程序 设计 中 所 
起 的 作用 那样 ， 为 大 家 所 熟知 和 接受 ， 并 作为 编码 算法 的 基本 手段 。 为 此 ， 第 三 部 分 介绍 了 
三 种 并 行程 序 设 计 语言 ， 基 于 线程 的 语言 (第 6 章 )， 消 息 传递 语言 (第 7 章 ) 和 高 级 语言 (第 
8 章 ) 。 我 们 所 论 及 的 每 种 语言 的 内 容 ， 足 以 使 读者 能 编写 小 的 练习 ， 但 编写 重大 的 问题 将 需 
要 更 完整 的 语言 介绍 ， 这 可 通过 在 线 资源 获得 。 除 了 介绍 一 种 语言 ， 每 一 章 还 包含 一 个 有 关 
语言 的 简短 综述 ， 这 些 语言 在 并 行程 序 设计 社团 中 有 一 批 追随 者 。 第 9 章 简 单 地 比较 和 对 比 了 
所 有 已 论述 的 语言 ， 指 明 它 们 的 优 缺 点 。 能 通读 这 三 章 最 好 ， 但 是 我 们 知道 许多 读者 将 只 会 
定格 在 一 种 方法 上 ， 因 此 这 三 章 是 相互 独立 的 。 

展望 ”第 四 部 分 是 展望 未 来 。 第 10 章 涉及 一 系列 新 的 、 有 前 途 的 并 行 技术 ， 它 们 无 疑 将 
影响 未 来 的 研究 和 实践 。 我 们 的 观点 是 ， 这 些 技术 还 未 为 它们 的 “全 盛 时 期 做 好 准备 ”， 但 它 
们 是 重要 的 ， 且 值得 我 们 去 熟悉 它们 ， 即 使 在 它们 还 未 被 完全 部 署 之 前 。 最 后 ， 第 11 章 侧重 
论述 并 行 机 程序 设计 的 第 一 手 实践 技术 。 该 章 的 前 两 节 应 在 研究 并 行程 序 设 计 之 前 阅读 ， 也 
许 与 第 4 章 和 第 5 章 的 抽象 一 起 学 习 更 好 。 但 该 章 的 主要 目的 是 帮助 读者 编写 作为 结 课 课程 设 
计 内 容 的 一 个 真实 程序 。 


本 书 使 用 方法 


虽然 本 书 的 内 容 以 逻辑 顺序 排列 ， 但 也 不 必 从 头 到 尾 阅 读本 书 。 的 确 ， 作 为 一 个 学 期 的 
课程 ， 在 学 完 所 有 论题 之 前 就 开始 程序 设计 的 练习 ， 这 可 能 是 一 个 明智 的 选择 。 请 看 如 下 的 
一 个 明智 的 学 习 计划 : 

。 第 1 章 和 第 2 章 

。11.1 节 ，3.4 节 ， 开始 程 序 设 计 练习 

。 第 4 章 和 第 5 章 
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“第 6 一 8 章 (关于 程序 设计 语言 ) 之 一 

“完成 第 3 章 和 第 11 章 ， 然 后 开始 学 期 课程 设计 

“依次 完成 以 下 各 章 : 关于 语言 的 各 章 ， 第 9 章 和 第 10 章 

当然 ， 从 头 到 尾 阅 读本 书 并 无 坏处 ， 但 上 述 方法 的 优点 是 阅读 和 程序 设计 可 并 行进 行 。 


致谢 


要 真诚 地 感谢 E Christopher Lewis 和 Robert van de Geijn 两 位 对 本 书 初稿 的 评论 。 也 要 对 
以 下 评阅 人 的 宝贵 反馈 意见 和 建议 表示 感谢 : 
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我 们 感谢 Karthik Murthy 和 Brandon Plost 两 位 在 编写 和 运行 并 行程 序 中 的 帮助 , 以 及 帮助 
发 现 正 文中 的 瑕 辣 ， 我们 还 要 感谢 Bobby Blumofe, 他 与 我 们 在 多 线程 程序 设计 课程 中 的 早期 
合作 在 本 书 的 许多 地 方 都 可 看 到 。 我 们 赞赏 和 感谢 华盛顿 大 学 2006 年 秋季 学 期 并 行程 序 设计 
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学 习 并 行程 序 设计 先 要 打 好 结实 的 基础 。 基 础 中 最 重要 的 就 是 要 能 分 辨 顺序 程序 设计 和 
并 行程 序 设计 两 者 的 差异 。 在 顺序 计算 中 ， 每 次 只 能 完成 一 个 操作 ， 使 得 判断 一 个 程序 的 正 
确 性 和 它 的 性 能 特性 非常 直截了当 。 在 并 行 计算 中 ， 许 多 操作 同时 进行 ， 使 得 对 程序 的 正确 
性 和 性 能 的 判断 变 得 复杂 ， 因 此 需要 修改 我 们 的 程序 设计 方法 。 本 篇 将 阐明 这 一 差异 所 带 来 
的 主要 后 果 。 | 

第 1 章 是 并 行 计算 的 导论 ， 从 求解 在 一 维 数组 中 统计 3 出 现 次 数 的 一 个 简单 问题 开始 ， 这 
个 任务 看 似 普通 ， 在 创建 一 个 有 合理 性 能 的 程序 之 前 ， 却 需要 进行 四 次 尝试 。 不 仅 如 此 ， 我 
们 发 现 对 加 速 比 的 最 大 期 望 无 法 实现 。 在 讲解 这 一 例子 时 ， 我 们 将 介绍 许多 并 行 的 基本 概念 

第 2 章 描述 并 行 计算 机 的 基本 体系 结构 特征 。 就 其 本 身 而 言 ， 便 是 一 个 饶 有 兴趣 的 主题 ， 
因为 像 处 理 器 间 通 信 这 样 富 有 挑战 性 的 问题 存在 许多 的 可 能 解答 ， 而 且 体系 结构 师 所 使 用 的 
技术 具有 很 强 的 独创 性 。 对 各 种 并 行 机 进行 考察 得 出 的 结论 是 它们 是 截然 不 同 的 。 由 于 程序 
员 需 要 知晓 机 器 低层 的 一 些 特性 才能 编写 高 质量 的 程序 ， 因 此 有 必要 寻找 一 个 能 统一 各 种 不 
同体 系 结构 的 机 器 模型 。 我 们 将 引入 这 样 的 一 个 模型 作为 后 面 研究 的 基础 ， 

为 了 清晰 地 了 解 并 行 计算 机 是 如 何 工作 的 ， 在 第 3 章 中 从 概念 性 角度 剖析 了 许多 有 关 并 行 
性 能 的 问题 。 我 们 介绍 的 主要 概念 包括 时 延 、 带 宽 、 加 速 比 和 效率 。 在 程序 设计 方面 ， 如 其 
中 的 相关 性 ， 将 作为 并 行 线程 的 干扰 源 进行 重点 介绍 。 一 旦 掌握 了 所 介绍 的 这 些 基本 概念 ， 
就 为 学 习 第 二 部 分 中 的 算法 思想 做 好 了 准备 。 


ple 导 论 


并 行 计算 是 一 种 能 加 速 计算 的 基本 技术 ， 因 此 不 断 增长 的 并 行 硬件 可 用 性 隐 含 着 巨大 的 
机 遇 。 但 是 实现 一 个 并 行 求解 意味 着 对 某 些 概念 和 程序 设计 的 挑战 ， 这 正 是 本 书 试图 要 解决 
的 。 为 了 正确 地 权衡 机 遇 和 挑战 ， 本 章 将 提出 与 并 行程 序 有 关 的 问题 并 介绍 基本 概念 。 


1.1 并 行 的 威力 和 潜能 


并 行 在 日 常生 活 中 时 常 碰 到 。 更 为 重要 的 是 ， 在 过 去 的 几 十 年 中 并 行 以 各 种 方式 为 计算 
机 性 能 的 稳定 提高 做 出 了 贡献 。 现 在 新 的 机 遇 正 在 出 现 。 下 面 让 我 们 来 详细 论述 这 一 点 。 


1.1.1 并 行 ， 一 个 熟悉 的 概念 


并 行 是 我 们 熟悉 的 一 个 概念 。 杂 要 (juggling) 是 人 类 能 完成 的 一 个 并 行 任务 。 房 屋 建造 
是 一 种 并 行 活动 ， 因 为 几 个 工人 能 同时 完成 不 同 的 工作 ， 如 电线 配 线 、 水 管 安置 、 锅 炉 管 道 
安装 等 等 。 大 多 数 的 工业 产品 如 汽车 、 吹 风 器 、 速 冻 食 品 ， 都 以 流水 线 方式 进行 生产 ， 在 流 
水 线 上 正在 建造 的 许多 单 件 产品 是 同时 进行 加 工 或 装配 的 。 呼 叫 中 心 则 是 另 一 种 应 用 并 行 的 
结构 ， 其 中 有 许多 雇员 在 同时 为 顾客 服务 。 

虽然 熟悉 ， 但 应 注意 这 些 并 行 形 式 是 不 同 的 。 例 如 呼叫 中 心 在 本 质 上 与 房屋 建造 有 所 不 
fal: 呼叫 通常 是 独立 的 ， 因 此 能 以 任意 次 序 提供 服务 ， 而 且 工 作 人 员 之 间 几 乎 没有 交互 。 而 
在 建 房 时 ， 某 些 任务 能 同时 完成 ， 如 电线 配 线 和 水 管 安 置 ， 而 另外 一 些 任 务 则 必须 依次 进行 ， 
例如 配 线 架 必须 在 配 线 之 前 进行 安装 。 这 种 顺序 限制 了 能 同时 进行 的 并 行 量 ， 从 而 也 就 限制 
了 一 个 建设 项 目 完成 的 进度 。 顺 序 性 也 增加 了 工人 之 间 的 交互 程度 。 制 造 业 的 流水 线 与 前 两 
者 又 有 所 不 同 ， 因 为 它们 有 严格 的 顺序 约束 ， 制 造 产品 的 各 个 阶段 通常 以 顺序 方式 进行 ， 并 
行 性 来 自 于 流水 线 上 同时 在 生产 许多 单 件 产品 。 杂 要 则 属于 事件 驱动 的 并 行 ， 当 一 个 事件 
(一 个 落下 的 球 ) 发 生 时 将 引起 有 关 操 作 的 执行 (WER HR) 以 响应 该 事件 。 这 些 熟 悉 的 并 
行 形式 也 将 出 现在 我 们 要 讨论 的 并 行 计算 中 。 


1.1.2 计算 机 程序 中 的 并 行 


以 并 行 方式 执行 程序 指令 的 主要 动机 是 为 了 加 快 计算 。 但 是 现今 的 大 多 数 程序 是 无 法 通过 
并 行 来 改进 性 能 的 ， 因 为 它们 的 编写 是 假设 指令 是 按 序 执行 的 ， 每 次 执行 一 条 指令 ， 即 是 顺 
序 执行 的 。 大 多 数 程序 设计 语言 的 语义 体现 为 顺序 执行 ， 按 这 种 语义 编写 的 程序 通常 严重 地 
依赖 于 这 种 特征 来 保证 正确 性 ， 因 而 很 难 有 机 会 实现 并 行 执 行 。 当 然 ， 还 存在 一 些 机 会 ， 例 
如 在 计算 表达 式 (a+b)*(c+d) 时 ， 假 定 这 些 都 是 简单 变量 ， 由 于 子 表达 式 (a+b) 和 (c+d) 相 互 独 立 ， 
因此 它们 能 同时 计算 。 这 就 是 指令 级 并 行 (Insruction Level Parallelism, ILP) 的 例子 。 

的 确 ， 我 们 继续 编写 顺序 程序 的 一 个 理由 是 因为 计算 机 体系 结构 师 们 在 开发 并 行 性 方面 
-如 此 成 功 。 他 们 利用 硅 工 艺 的 稳定 改进 ， 在 顺序 处 理 器 的 设计 中 采用 了 多 种 并 行 方法 ， 其 中 
包括 ILP。 首 先 ， 体 系 结构 师 们 为 指令 和 数据 提供 了 分 离 的 路 径 和 高 速 缓存 (cache)。 这 种 分 





离 允 许 对 指令 和 数据 存储 器 进行 并 行 访问 ， 两 者 互 不 干扰 。 其 次 ， 使 指令 执行 流水 化 ， 在 执 
行当 前 指令 的 同时 ， 对 后 继 的 指令 进行 取 指 和 译 码 ， 而 前 面 的 指令 则 正在 将 结果 写 回 存储 器 。 
更 进一步 ， 处 理 器 每 次 可 发 出 启动) 多 条 指令 ， 预 取 指令 和 数据 ， 以 猜测 方式 并 行 地 完成 
操作 ， 即 使 不 能 保证 是 否 真 的 需要 进行 这 些 操作 ， 他 们 还 使 用 高 速 并 行 电路 完成 基本 的 算术 
操作 。 简 言 之 ， 现 代 处 理 器 是 高 度 并 行 的 系统 。 

对 程序 员 来 讲 ， 所 有 这 些 并 行 对 顺序 程序 都 是 透明 可 用 的 。 我 们 称 这 种 并 行为 隐藏 并 行 
(hidden parallelism) 。 这 种 并 行 ， 加 上 不 断 提高 的 时 钟 速度 ， 使 得 新 一 代 的 处 理 器 芯片 总 能 以 
更 快 的 速度 执行 程序 ， 而 同时 又 保持 顺序 执行 的 假象 。 但 是 要 在 维持 顺序 语义 的 基础 上 期 望 
找到 应 用 并 行 的 新 机 遇 是 非常 有 限 的 。 更 为 严重 的 是 ， 就 功率 消耗 和 性 能 两 者 而 言 ， 开 发 ILP 
的 现 有 技术 在 很 大 程度 上 已 经 到 达 了 它 的 收益 递减 点 。 因 而 ， 就 当前 的 技术 而 言 ， 顺 序 程序 
的 执行 可 能 已 接近 它 的 最 大 速度 。 

要 想 继续 获取 显著 的 性 能 改进 ， 必 须 超越 现 有 程序 典型 的 单 指令 序列 的 工作 方式 。 我 们 
必须 使 程序 以 同时 运行 多 指令 流 的 方式 工作 。 这 种 工作 方式 需要 使 用 新 的 程序 设计 技术 ， 这 
就 是 本 书 要 讨论 的 主题 。 


1.1.3 多 核 计 算 机 ， 一 个 机 时 


虽然 单 处 理 器 的 性 能 改进 可 能 已 接近 极限 ， 但 摩尔 定律 的 预言 使 得 晶体 管 密度 仍 在 不 断 
提高 。 艺 片 制造 商 利用 这 一 机 会 ， 在 单个 芯片 上 放置 多 个 指令 执行 引擎 以 及 相应 的 高 速 缓存 
这 种 结构 很 快 得 到 新 的 名 称 “ 核 ” (core)， 因为 它 代 表 了 一 个 典型 顺序 处 理 器 的 核心 部 分 。 
早期 的 多 核 芯片 有 2 个 、4 个 或 8 个 核 ， 但 是 核 的 数目 随 着 新 一 代 处 理 器 的 出 现在 不 断 增长 . 

于 2005/2006 年 问世 的 第 一 个 多 核 芯片 引起 了 全 社会 关于 “免费 午餐 结束 ”的 讨论 。 讨 论 

* 由 于 如 前 所 述 的 硅 工 艺 和 体系 结构 设计 (隐藏 并 行 ) 的 进步 ， 软 件 开发 者 几 十 年 来 一 站 

享受 稳定 的 性 能 改进 一 一 “免费 午餐 ”。 

。 由 于 无 须 关 心性 能 ， 多 年 来 程序 员 对 他 们 使 用 的 技术 和 方法 学 几乎 没有 什么 改变 (面向 

对 象 的 范例 是 一 个 值得 一 提 的 例外 ) 。 

“ 现 有 的 软件 通常 不 能 直接 利用 多 核 芯片 。 

* 不 能 利用 多 核 芯片 的 程序 在 目前 和 未 来 都 无 法 实现 性 能 改进 。 

“大 多 数 程序 员 不 知道 如 何 编写 并 行程 序 。 

令 人 不 快 的 结论 是 程序 需要 改变 ， 为 此 程序 员 也 必须 随 之 改变 。 

虽然 上 述 的 结论 在 某 些 人 看 来 可 能 是 一 个 坏 消 息 ， 但 同时 还 有 相应 的 好 消息 。 特 别 是 ， 
如 果 将 一 个 计算 重 写成 并 行 形式 ， 而 且 如 果 访 并行 程序 是 可 扩展 的 (表示 它 能 够 使 用 日 益 增 
多 的 处 理 器 ) ， 那 么 随 着 硅 工 艺 的 进步 ， 随 之 会 有 更 多 的 核 加 到 未 来 的 芯片 上 ， 则 已 重 写 的 程 
序 的 性 能 将 持续 上 升 。 但 对 不 可 扩展 的 并 行程 序 来 讲 ， 将 不 能 享受 硅 工艺 进步 的 好 处 。 因 此 ， 
获取 可 扩展 并 行 至 关 重 要 。 

茶 些 特别 是 在 图 形 学 领域 的 研究 人 员 ， 无 疑 对 是 否 需 要 并 行 计算 的 讨论 感到 非常 奇怪 ， 
因为 他 们 多 年 来 一 直 在 使 用 并 行 性 。 图 形 处 理 部 件 (Graphics Processing Unit，GPU)， 又 称 
为 图 形 卡 ， 已 经 是 加 速 绘制 (rendering) 流水 线 的 标准 技术 。 虽 然 GPU 看 起 来 像 是 一 个 小 巧 
的 协 处 理 器 ， 对 通用 计算 机 应 用 来 讲 微不足道 ， 但 硅 工 艺 的 进展 已 使 得 在 图 形 处 理 部 件 上 进 
行 通用 计算 (General Purpose computing on Graphics Processing Unit, GPGPU) 这 一 概念 成 
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为 可 能 。 大 约 18 个 月 的 代 周 期 ， 使 得 GPU 随 着 每 一 代 的 发 展 正在 逐步 变 得 更 为 通用 ， 并 行程 
序 员 已 将 它们 应 用 到 许多 非 图 形 处 理 的 密集 计算 场 含 。 如 同 开 发 多 核 忆 片 一 样 ， 开 发 GPU 的 
潜在 能 力 需要 并 行程 序 设 计 的 知识 。 


1.1.4 使 用 并 行 硬件 的 更 多 机 遇 


到 目前 为 止 所 讨论 的 使 用 并 行 的 机 遇 只 涉及 少量 的 处 理 器 。 但 实际 上 还 存在 许多 更 具 雄 
心 的 机 遇 。 

超级 计算 机 国家 研究 实验 室 、 军 事 部 门 以 及 大 公司 所 感 兴趣 的 求解 问题 通常 需要 使 用 超 
级 计算 机 ， 所 谓 超 级 计算 机 是 指 当今 世界 上 最 快 的 计算 机 。20 年 前 ， 超 级 计算 机 是 用 户 定制 
的 单 处 理 器 系统 (一般 具有 向 量 处 理 能 力 )， 但 是 1996 年 11 月 在 500 强 (Top 500) 最 快 计算 机 
名 单 中 最 后 出 现 的 单 处 理 器 系统 共有 3 台 ， 排 名 仅 分 别 为 第 265 位 、 第 374 位 和 第 498 位 。 现 在 
的 500 强 名 单 则 为 具有 数 以 千 计 的 处 理 器 的 并 行 计算 机 所 占据 。 在 许多 方面 ， 超 级 计算 机 程序 
员 形 成 了 最 大 和 最 富 经 验 的 并 行程 序 员 社区 。 

机 群 常常 可 以 观察 到 ， 不 论 单 计 算 机 有 多 快 ， 将 两 个 或 多 个 计算 机 连接 起 来 可 以 组 成 一 
个 更 快 的 计算 机 ， 因 为 组 合 的 机 器 在 单位 时 间 内 能 执行 更 多 的 指令 。 当 然 ， 需 要 编写 优质 的 
并 行程 序 以 开发 额外 的 计算 能 力 。 机 群 自 20 世 纪 90 年 代 开 始 流行 ， 因 为 用 商品 化 部 件 构成 的 
机 群 比较 便宜 。 机 群 的 低 价格 不 但 吸引 了 众多 的 小 团体 (实验 室 或 小 公司 ) ， 而 且 与 其 他 高 端 
计算 形式 相 比 ， 机 群 具有 很 高 的 性 能 价格 比 。2007 年 6 月 公布 的 500 强 名 单 中 (参见 www. 
top500.org)， 机 群 占 了 74.6%。 

服务 器 因特网 的 扩张 和 远程 服务 (如 搜索 ) 的 普及 促成 了 大 量 的 连 网 计算 机 。 就 每 秒 所 
执行 的 总 指令 数 而 言 ， 这 些 服 务 中 心 代表 着 巨大 的 计算 资源 。 典 型 的 计算 (如 搜索 查询 处 理 ) 
是 相互 独立 的 ， 此 外 ， 它 们 使 用 分 布 (相对 于 并 行 ) 的 程序 设计 技术 (参见 1.1.5 节 )。 无 论 如 
何 ， 这 些 庞大 的 连 网 系统 正 被 用 来 分 析 其 工作 负载 特征 ， 以 及 完成 其 他 的 数据 密集 计算 ， 其 
解决 方法 也 是 需要 应 用 并 行程 序 设 计 技 术 。 

网 格 计算 更 进一步 的 通用 化 将 使 得 计算 机 的 集合 无 须 在 同一 场所 ， 也 不 需要 由 同一 个 机 
构 加 以 管理 ， 毕 竟 由 因特网 连接 的 计算 机 代表 着 巨大 的 计算 资源 。 类 似 于 电力 网 格 ， 计 算 网 
格 寻 求 一 种 能 提供 方便 的 计算 服务 的 机 制 ， 即 使 低层 的 计算 机 是 由 物理 上 分 散 的 机 器 组 成 ， 
而 且 这 些 机 器 由 多 个 行政 部 门 分 别管 理 。 在 网 格 普及 之 前 ， 还 存在 许多 技术 问题 ， 但 这 是 一 
个 活跃 的 研究 领域 。 

由 上 可 知 ， 除 了 可 以 在 单 世 片 的 少量 处 理 器 上 使 用 并 行程 序 之 外 ， 还 存在 相当 多 使 用 并 
行程 序 的 机 会 。 这 些 大 型 计算 机 系统 也 激发 起 我 们 编写 可 扩展 并 行程 序 的 冲动 。 


1.1.5 并 行 计 算 和 分 布 式 计算 的 比较 


如 前 所 述 ， 分 布 式 计算 和 并 行 计 算是 不 同 的 。 

并 行 计算 的 传统 目的 是 提供 单 处 理 器 无 法 提供 的 性 能 (处 理 器 能 力 或 存储 器 ) ， 因 此 ， 
它 的 目的 是 使 用 多 处 理 器 求解 单个 问题 。 而 分 布 式 计算 的 目的 主要 是 提供 方便 ， 这 种 方便 包 
括 可 用 性 、 可 靠 性 以 及 物理 的 分 布 (能 从 许多 不 同 场所 访问 分 布 式 系统 )。 

在 并 行 计 算 中 ， 处 理 器 间 的 交互 一 般 很 频繁 ， 往 往 具 有 细 粒 度 和 低 开销 的 特征 ， 并 且 被 
认为 是 可 靠 的 。 而 在 分 布 式 计算 中 ， 处 理 器 间 的 交互 不 频繁 ， 交 互 特征 是 粗 粒 度 ， 并 且 被 认 
为 是 不 可 靠 的。 并 行 计 算 注重 短 的 执行 时 间 ， 分 布 式 计算 则 注重 长 的 正常 运行 时 间 。 

”当然 ， 并 行 计 算 和 分 布 式 计算 两 者 是 密切 相关 的 。 某 些 特征 与 程度 〈 处 理 器 间 交 互 频率 ) 
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有 关 ， 而 我 们 还 未 对 这 种 交叉 点 (crossover point) 进行 解释 。 另 一 些 特 征 则 与 侧重 点 有 关 
(速度 与 可 靠 性 )， 而 且 我 们 知道 这 两 个 特性 对 并 行 和 分 布 两 类 系统 都 很 重要 。 由 此 可 知 ， 这 
两 种 不 同类 型 的 计算 在 一 个 多 维 空间 中 代表 不 同 但 又 相 邻 的 点 。 对 并 行 计算 (或 分 布 式 计算 ， 
但 它 不 是 本 书 的 论述 重点 ) 越 了 解 ， 在 并 行 - 分 布 空间 中 就 越 游 刀 有余。 学习 并 行 计算 的 基础 
对 于 无 须 改 进 性 能 的 程序 员 来 讲 也 是 非常 有 用 的 。 


1.1.6 系统 级 并 行 


让 我 们 暂且 回 到 先前 的 论点 ， 即 为 了 享受 并 行 的 好 处 ， 我 们 必须 不 受 单 指令 序列 的 约束 。 
这 一 论点 仅 针 对 单个 应 用 。 然 而 ， 当 我 们 从 系统 级 观察 桌面 机 的 软件 时 ， 会 发 现 许 多 任务 是 
并 行 执行 的 。 操 作 系 统 控 制 它们 的 并 发 执行 ， 在 这 里 它 意味 着 同时 处 理 几 个 任务 ,但 每 次 只 
执行 一 个 任务 ， 这 种 技术 也 称 为 多 任务 化 (multitasking)。2 一 个 显而易见 的 问题 是 , “为 什 
么 不 直接 将 这 些 分 离 的 任务 在 额外 的 处 理 器 上 运行 ? ”这 是 有 道理 的 ， 因 为 它们 的 并 发 设计 
能 保证 在 它们 之 间 不 论 发 生 何 种 交互 都 能 安全 地 加 以 处 理 。 

并 发 和 并 行 ” 尽 管 这 两 个 术语 紧密 相关 ， 但 历史 影响 了 我 们 如 何 使 用 它们 。“ 并 发 ”一 

词 在 操作 系统 中 广泛 使 用 ， 数 据 库 社 区 将 其 描述 为 远 辑 上 同时 执行 ， 而 “并 行 ”一 词 

则 通常 在 体系 结构 和 超级 计算 社区 中 流行 ， 用 来 描述 物理 上 的 同时 执行 。 不 论 是 哪 一 

种 情况 ， 同 时 执行 的 代码 都 显示 出 未 知 的 定时 特征 。 例 如 ， 操 作 系 统 在 某 时 刻 可 能 正 

执行 一 个 代码 段 ， 但 是 因为 执行 能 在 任意 时 间 点 切换 到 另 一 个 代码 段 ， 因 此 所 遇 到 的 

问题 与 物理 上 同时 执行 时 是 一 样 的 。 类 似 地 ， 对 于 物理 并 行 ， 代 码 段 间 的 定时 关系 是 

不 可 预测 的 ， 强 制 设 定 任何 定时 都 是 可 能 的 。 因 此 ， 就 程序 正确 性 问题 而 言 ， 对 并 发 

计算 和 并 行 计算 来 讲 是 一 样 的 。 从 某 种 意义 上 讲 ， 它 们 是 各 种 不 同 并 行 资源 的 两 个 端 

点 。 本 书 中 ， 我 们 将 交替 使 用 这 两 个 术语 来 表示 远 辑 并 发 。 

对 于 刚才 提 及 的 大 规模 并 行 , 第 一 个 回答 是 , 没有 足够 多 的 任务 能 使 大 量 处 理 器 处 于 繁忙 状态 。 
而 对 于 小 规模 的 并 行 问题 ， 如 目前 典型 的 多 核 蕊 片 ， 单 独 的 任务 能 在 不 同 的 处 理 器 上 运行 。 的 确 ， 
已 经 有 人 提议 ， 可 以 在 这 些 额 外 的 处 理 器 上 连续 地 执行 任务 (例如 安全 性 软件 ， 或 是 操作 系统 本 
身 ， 就 是 这 种 任务 很 好 的 候选 )。 但 是 ， 实 际 上 存在 的 并 行 机 会 比 最 初 看 上 去 要 少 。 这 是 因为 ， 首 
先 , 许多 应 用 即使 现在 也 不 在 平 硬件 ， 字 处 理 器 连续 地 在 后 台 进 行 拼 写 检 查 ， 它 永远 也 不 会 落 在 
打字 员 后 面 。 其 次 ， 操 作 系统 中 的 大 多 数 多 任务 都 源 自 正在 执行 的 任务 请 求 一 个 耗 时 的 外 部 操作 
时 〈 如 缺 页 、 磁 盘 IO 或 网 络 IO) 切换 到 一 个 新 任务 。 在 单 处 理 器 系统 中 ， 当 任务 A 阻塞 于 这 种 请 
求 时 ， 可 以 执行 男 一 个 任务 B， 从 而 极 大 地 提高 了 利用 率 ， 但 是 在 一 个 多 处 理 器 系统 中 ， 任 务 B 可 
能 已 在 另 一 个 处 理 器 上 执行 完毕 ， 从 而 迫使 执行 任务 A 的 处 理 器 只 是 处 于 闲置 状态 。 

然而 ， 在 单独 的 并 行 处 理 器 上 运行 多 个 任务 并 不 是 一 个 好 主意 ， 主 要 原因 在 于 它 通 常 并 
不 能 改善 单个 应 用 的 性 能 。 因 此 在 确实 需要 改善 性 能 的 情况 下 ， 关 键 是 要 有 多 个 协同 指令 流 
有 效 地 使 用 多 处 理 器 。 


1.1.7 并 行 抽象 的 便利 
最 后 ， 除 了 性 能 以 外 ， 开 发 并 行 性 还 有 一 个 理由 : 某 些 计算 更 容易 表示 成 并 行 计 算 。 例 


O 由 于 某 些 IO 设备 〈 如 磁盘 控制 器 ) 通常 是 与 主要 执行 引擎 分 离 的 ， 因 此 长 期 以 来 ， 实 际 上 处 理 器 与 它 的 外 
部 设备 是 并 行 执行 的 。 


6 解 一 部 分 KR ” æ 





如 ， 用 户 界面 通常 最 好 编写 为 线程 的 集合 ， 其 中 一 个 线程 负责 与 用 户 交互 : 该 线程 等 待 用 户 
的 输入 ， 并 分 派 其 他 线程 给 出 适当 的 响应 。 这 样 的 结构 可 以 大 大 简化 显示 小 窗口 部 件 的 代码 ， 
例如 ， 它 无 需 负责 轮 询 用户 是 否 点 击 鼠 标 键 ， 而 这 种 点 击 可 能 在 任何 时 间 发 生 。 

如 我 们 将 见 到 的 那样 ， 用 于 组 织 和 管理 并 行 计算 的 抽象 将 使 多 指令 流 的 使 用 方便 而 安全 ，。 
在 控制 流 不 可 预测 时 ， 纵然 结果 的 指令 序列 未 同时 执行 ， 并 行 仍 有 帮助 。 因 此 ， 在 我 们 强调 
快速 求解 问题 的 时 候 ， 应 意识 到 并 行 还 有 其 他 的 用 途 。 


1.2 考察 顺序 程序 和 并 行程 序 


在 前 面 几 小 节 中 我 们 着 重 论述 了 硬件 具备 的 潜在 优势 。 我 们 还 断言 现 有 的 顺序 程序 不 能 
利用 多 核 计算 机 ， 因 此 现在 必须 考虑 能 实现 并 行 硬件 优 点 的 方法 。 


1.2.1 并 行 化 编译 器 


我 们 中 的 许多 人 知道 编译 器 能 将 我 们 编写 的 程序 翻译 成 所 使 用 计算 机 的 机 器 指令 ， 但 并 不 
了 解 编译 器 是 如 何 完成 这 一 奇妙 翻译 的 ， 因此 一 个 合情合理 的 想法 是 ， 为 什么 不 直接 编写 一 
个 能 将 现 有 上 顺序 程序 翻译 成 适合 并 行 执行 的 编译 器 。 毕 竟 顺 序 程序 已 经 指定 了 计算 ， 剩 下 需要 
做 的 只 是 将 相同 的 操作 翻译 成 为 并 行 形式 。 为 并 行 机 编译 顺序 程序 的 思想 是 最 初 尝试 的 方法 之 
一 ， 至 今 它 仍 是 一 个 梦想 。 遗 憾 的 是 ， 尽 管 已 进行 了 30 多 年 的 认真 研究 ， 这 个 梦想 仍 未 实现 。 

持 有 这 种 翡 观 论调 的 理由 是 ， 可 扩展 并 行 算法 通常 与 现 有 程序 中 的 顺序 算法 在 本 质 上 是 不 
同 的 。 我 们 将 通过 一 个 范例 来 描绘 如 何 使 求解 方法 从 顺序 方式 逐步 演变 为 并 行 方式 。 由 于 编译 
器 在 转换 程序 过 程 中 保持 了 程序 的 正确 性 ， 所 以 ， 编 译 器 不 会 改变 算法 的 基本 特征 。( 图 1-1 说 
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tl=a 
i i 2=0 
expr assign expr assign t 
P l t3=(tl==t2) 
eqTest lhs expr eqTest lhs expr er t3 goto L1 
| t5=2 
div a 0 
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ie > | 已 优化 代码 | = | > 汇编 代码 | = | 汇编 和 链接 |> | 二 进 制 代码 


tl=a ld 8,a offset(fp) N 00110000 


t2=(t1==0) bnez 8,11 11101001 
ifzero t2 goto L1 ld 9,x_offsest(fp) 10110100 


sra 9,1 01000000 
st 9,x_offset(fp) 
Lil: 
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图 1-1 通用 编译 过 程 。 在 第 1 阶段 ， 扫 描 (词法 分 析 ) 和 解析 (名 法 分 析 ) 源 程序 ， 生成 一 个 称 为 抽象 句法 树 的 程序 表 
示 。 在 此 基础 上 进行 类 型 检查 以 确保 诸如 变量 已 声明 。 在 第 2 阶段 ， 程序 被 转换 成 3 地 址 代码 的 线性 指令 序列 。 然 
后 ， 对 这 种 中 间 表 达 式 进行 改进 ( 称 为 优化 )。 再 将 所 生成 的 优化 代码 转换 成 特定 于 机 器 的 汇编 代码 。 此 后 ， 再 
把 它 转 换 成 二 进 制 代码 ， 并 指派 虚 地 址 
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明了 一 个 通用 编译 器 的 工作 流程 )。 编 译 器 改变 程序 代码 的 形式 ， 可 以 删除 不 需要 的 指令 ， 例 
如 对 变量 加 零 ， 能 添加 辅助 指令 ， 检 查 数组 索引 是 否 在 规定 的 范围 以 内 ， 还 能 移动 指令 ， 例 
如 将 它们 移 到 循环 外 ， 只 要 这 些 指令 的 计算 值 不 受 选 代 的 影响 ， 此 外 ， 编 译 器 还 能 进行 其 他 
神奇 的 转换 。 但 通用 的 算法 仍 保持 不 变 。 不 论 源 代码 是 顺序 的 还 是 并 行 的 ， 目 标 码 形式 的 算 
法 基本 上 仍 保持 原样 。 

尽管 由 编译 器 自动 完成 并 行 化 很 不 错 ， 但 我 们 必须 考虑 其 他 的 并 行 化 方法 。 首 先 考 虑 同 
一 任务 的 顺序 和 并 行 算法 有 什么 不 同 。 


1.2.2 范例 求解 的 变化 


为 了 弄 清 顺序 算法 和 并 行 算法 的 不 同 ， 我 们 将 比较 求 一 串 数 总 和 的 不 同 算法 。 由 于 这 个 
例子 十 分 简单 ， 确 实 有 一 些 编译 技术 能 加 以 识别 ， 并 能 生成 更 并 行 的 解 。 但 我 们 仍 选 择 它 ， 
理由 在 于 它 能 对 顺序 解 和 并 行 解 之 间 概 念 性 的 差异 进行 简洁 的 说 明 。 

我 们 假定 该 序列 有 n 个 数据 值 ， 


Xo, X1, X2, °°", Xn-1 


且 开 始 时 它们 存放 在 数组 x 中 。 

AKA 也 许 ， 最 直观 的 求解 方法 是 将 一 个 名 为 sam 的 变量 初始 化 为 0， 然 后 ， 和 迭代 相 
加 序列 中 的 元 素 。 这 种 计算 方式 通常 使 用 一 个 循环 进行 编程 ， 用 索引 值 访问 序列 中 的 元 素 ， 
如 下 所 示 ; 


1 sum = 0; 

2 for(i=0; i<n; i++) 
3 1{ 

4 sumt+=x[i}; 

5 } 


该 计算 可 抽象 成 一 个 图 ， 说 明 组 合 数字 的 
顺序 (参见 图 1-2)。 这 种 求解 方法 是 直观 
的 ， 因 为 大 多 数 人 开始 学 习 编 程 时 就 采用 
这 种 方式 。 

当然 ， 实 数 的 加 法 是 可 结合 和 交换 的 
操作 ， 这 就 意味 着 在 求 和 时 ， 不 必 按 从 最 
小 的 索引 值 到 最 大 索引 值 的 次 序 进行 。 我 
们 可 以 按 其 他 的 次 序 将 它们 相 加 并 得 到 相 
同 的 结果 ， 也 许 这 种 相 加 的 次 序 能 提供 更 
多 的 并 行 性 。 7 3 15101318 6 4 

非 结合 性 严格 地 讲 ， 用 固定 精度 表示 的 数组 元 素 

浮 点 数 完成 加 法 时 ， 不 具有 结合 性 ， 图 1-2 顺序 求 和 。 将 数值 序列 (7, 3, 15, 10, 13, 18, 

为 它们 只 是 近似 的 实数 。 因 而 对 于 某 些 6, 4) 中 的 数 加 到 累加 变量 中 时 的 组 合 次 序 

数值 序列 ， 不 同 次 序 的 加 法 将 产生 不 同 的 结果 。 我 们 将 忽略 这 一 点 ， 并 多 放 重 排 计算 的 次 

后 以 改进 性 能 。 理 由 是 :a) 在 大 多 数 情况 下 ， 序 列 的 原始 次 序 就 是 任意 的 ，b) 在 序列 的 原 

始 次 序 不 是 任意 的 且 必 须 考虑 数值 精度 时 ， 则 在 茜 个 计算 过 程 中 需要 对 误差 进行 控制 


成 对 求 和 男 一 种 具有 更 高 并 行 度 的 求 和 方法 是 将 数据 值 的 侦 / 奇 对 相 加 ， 产 生 以 下 的 中 
间 和 ， 


时 间 
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(xo + x1), (x2 + x3), (x4 + x5), (Xe + x7), 7° 


然后 将 它们 再 成 对 相 加 ， 
((xo + x1) + (x2 + X3)), (Xa + x5) + (x6 + x7)), == 

生成 进一步 的 中 间 和 ， 然 后 再 进一步 成 对 相 加 ， 依 此 类 推 。 这 个 求解 方法 可 以 看 成 是 生成 一 棵 计 
算 树 ， 其 中 ， 原 始 数据 值 是 叶子 ， 中 间 结 点 
是 其 下 面 的 结 点 之 和 ， 根 是 总 和 ( 见 图 1-3)。 

比较 图 1-2 和 图 1-3， 可 以 看 到 ， 由 于 这 
两 个 求解 方法 需要 相同 数目 的 操作 数 和 中 
间 和 ， 因 此 当 使 用 一 个 处 理 器 时 ， 其 中 任 
何 一 个 解 都 没有 时 间 上 的 优势 。 然 而 ， 如 
果 一 个 并 行 计 算 机 至 少 有 P = n /2 个 处 理 器 
时 ， 则 处 于 计算 树 上 同一 级 的 所 有 加 法 就 
可 以 同时 进行 ， 从 而 使 求解 的 时 间 复 杂 性 
Slog ?成 正比 。 与 线性 时 间 的 顺序 算法 相 
比 ， 成 对 求 和 策略 在 性 能 上 有 显著 的 改进 。 
与 顺序 求解 方法 一 样 ， 成 对 求 和 方法 也 是 一 个 非常 直观 的 考虑 计算 的 方法 。 

并 行 和 的 表示 。 迫 代 求 和 已 经 用 C 语 言 代码 加 以 说 明 ， 但 成 对 求 和 却 没 有 。 如 果 不 考 虑 所 
写 的 代码 是 针对 任意 长 数组 的 ， 那 么 可 以 用 如 下 的 表达 方式 突出 计算 的 二 又 树 结构 : 
- t[0]=x[0]+x[1]; 
t[1]=x[2]+x[3]; 


1 

2 

3 t[2]=x[4]+x[5]; 
4 t[3]=x[6]+x[7]; 
5 
6 
7 


时 间 





数组 元 素 
图 1-3 成 对 求 和 。 用 递归 方法 组 合 数值 序列 (7, 3, 
15, 10, 13, 18, 6, 4) 的 次 序 ， 先 组 合 数 
值 对 ， 再 组 合 结果 对 ， 依 此 类 推 


t[4]=t[0]+t[1]; 

t[5]=t[2]+t[3]; 

sum=t(4}+t[5]; 
前 4 个 赋值 语句 能 并 行 完成 : 在 它们 完成 之 后 ， 后 两 个 赋值 语句 (5, 6) 也 能 并 行 完成 。 
1.2.3 并 行 前 绎 求 和 


与 求 和 紧密 相关 的 操作 是 前 缀 求 和 ， 在 许多 并 行程 序 设 计 语言 中 也 称 为 扫描 (scan)。 与 
求 和 操作 一 样 ， 首 先 仍 有 z 个 值 的 序列 ， 


Xos, X15 X2, "°, Xn-1 
但 希望 计算 的 是 如 下 的 序列 ， 
Yos Yis Y2s Yn-l 
其 中 ， 每 个 7 是 输入 的 前 ; 企 元 素 的 和 ， 即 有 ， 
Yi =Lj<iXj 


以 并 行 方式 求解 前 级 和 不 如 求 累 加 和 那样 明显 ， 因 为 它 需 要 顺序 求解 所 有 中 间 值 。 初 看 起 来 ， 
好 像 前 绿 求 和 既 没 有 优势 ， 也 不 可 能 找到 更 好 的 解 ， 但 事实 上 前 缀 求 和 能 以 并 行 方式 完成 。 
通过 对 成 对 求 和 方法 的 观察 ， 可 以 发 现 只 要 对 该 方法 略 加 修改 就 可 以 计算 前 缀 值 。 求 解 
的 思路 是 ， 每 个 存储 有 x; 的 叶 处 理 器 能 够 计算 值 y;， 只 要 它 知道 在 它 左边 所 有 元 素 的 和 ， 即 它 
的 前 经， 在 成 对 求 和 的 过 程 中 ， 我 们 知道 所 有 子 树 的 和 (参见 图 1-3) ， 而 如 果 能 保留 这 些 信 
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息 ， 就 能 确定 这 些 前 缀 而 无 需 直 接 对 它们 求 和 。 为 做 到 这 一 点 ， 我 们 从 根 开始 ， 它 的 前 缀 
( 即 在 序列 元 素 之 前 的 所 有 元 素 和 ) 是 0。 这 也 是 它 的 左 子 树 的 前 缀 ， 而 它 的 左 子 树 的 总 和 则 
是 它 的 右 子 树 的 前 级 。 归 纳 地 应 用 这 一 思路 ， 我 们 可 以 得 到 如 下 规则 : 

“如 前 所 述 ， 在 根 结 点 用 成 对 求 和 方法 计算 出 总 和 。 

“结束 后 ， 假 想 根 从 它 的 父 结 点 〈 实 际 不 存在 ) 处 接收 一 个 0。 

“所 有 的 非 叶子 结 点 从 它 的 父 结 点 处 接收 一 个 值 ， 将 该 值 转发 给 它们 的 左 子 结 点 ， 并 将 父 

结 点 值 与 它们 的 左 子 结 点 值 (这 些 值 在 向 上 成 对 求 和 时 已 经 得 到 ) 的 和 发 送 给 右 子 结 

As 这 些 值 也 即 是 其 子 结 点 的 前 组 。 

“ 叶子 结 点 将 来 自 上 面 的 前 绥 值 与 它 所 保存 的 输入 值 相 加 。 

沿 树 向 下 移动 的 值 是 子 结 点 的 前 缀 (参见 图 1-4， 其 中 向 下 移动 的 前 绥 值 用 白 方 框 表示 ) 。 

这 种 计算 称 为 并 行 前 绥 计 算 。 它 在 树 中 进行 一 次 向 上 和 一 次 向 下 扫描 ， 但 扫描 中 处 于 每 
一 层 上 的 所 有 操作 可 同时 完成 。 因 此 ， 在 每 个 结 点 上 最 多 只 需要 进行 两 次 加 法 ， 一 次 向 上 和 
一 次 向 下 ， 加 上 路 由 的 逻辑 操作 。 由 上 可 见 ， 并 行 前 缀 求 和 具有 对 数 的 时 间 复 杂 性 。 许 多 类 
似 的 顺序 操作 在 这 一 方面 要 差 于 并 行 前 绎 方法 。 

顺序 和 并 行 算法 的 根本 差别 在 于 构造 并 行 算法 时 需要 改变 计算 的 次 序 。 


| 
| 0 | 38 | 
44 
(0 [ 10) | 35] 66) 
oT7] OEA [35 [48 186] 72) 
A 13 
数组 元 素 T 3. 18 和 13 18 6 4 
并 行 前 级 7 10 25 35 48 66 72 76 


图 1-4 前 级 和 的 计算 。 其 中 ， 灰 色 结 点 值 是 沿 树 向 上 扫描 ， 用 成 对 求 和 算法 计算 得 到 的 值 ， 白 色 结 点 什 
是 前 组 ， 沿 树 向 下 扫描 ， 用 以 下 简单 规则 得 到 ， 将 来 自 父 结 点 的 值 送 往 左 子 结 点 ， 而 将 来 自 左 结 
点 的 和 (上 传 而 来 ) 与 来 自 父 结 点 的 值 两 者 相 加 ， 并 将 其 结果 送 往 右 子 结 点 

1.3 使 用 多 指令 流 实现 并 行 


本 节 我 们 将 通过 开发 求解 一 个 简单 问题 的 并 行程 序 来 说 明 并 行程 序 设 计 的 复杂 性 。 通 过 4 
次 尝试 后 我 们 方 能 得 到 一 个 满意 的 结果 。 
首先 介绍 一 种 描述 指令 流 概念 的 方法 。 


1.3.1 线程 概念 
线程 ， 或 执行 线程 ， 是 一 个 并 行 的 单位 。 正 如 我 们 将 在 第 3 章 中 讨论 的 ， 一 个 线程 具备 执 
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行 一 个 指令 流 所 需 的 一 切 (包括 一 段 私有 的 程序 正文 ,一 个 调用 堆栈 ， 以 及 一 个 程序 计数 器 )， 
但 它 与 其 他 线程 共享 对 存储 器 的 访问 。 因 此 多 个 线程 能 在 全 局 数据 上 进行 协同 计算 。 

例如 ， 前 面 讨论 的 迭代 求 和 循环 可 以 作为 一 个 线程 的 基础 ， 如 果 我 们 将 该 循环 重 写 成 如 
下 形式 : 

1 for(i=start; i<end; i++) 注意 : 非 完 整 的 求解 

2 { 


3 sumt=x[i]; 
4 } 


循环 索引 i 是 调用 堆栈 的 局 部 变量 ， 而 变量 sum 和 数组 x 是 共享 变量 。 只 要 为 每 一 个 线程 赋 
予 一 组 不 同 的 start 和 end 值 ， 多 个 线程 就 能 同时 工作 ， 这 就 是 一 种 并 行 。 


1.3.2 统计 3 的 个 数 的 多 线程 求解 方法 


为 了 了 解 编写 正确 、 高 效 和 可 扩展 的 线程 式 程序 的 困难 之 处 ， 考 虑 在 一 个 数组 中 统计 3 的 
个 数 的 求解 问题 。 这 个 计算 在 大 多 数 顺 序 程序 语言 中 都 能 很 简单 地 表示 ; 那么 ， 当 用 线程 来 
求解 时 还 需要 什么 ? 

并 行 计算 机 ”为 使 问题 更 为 具体 ， 我 们 假设 将 在 有 8 个 处 理 器 的 并 行 计算 机 上 执行 我 们 的 
并 行程 序 ， 如 图 1-5 所 示 。 假 定 两 个 处 理 器 的 标号 分 别 为 PO 和 Pl1。 每 个 处 理 器 有 与 其 相 邻 的 一 
个 标号 为 Ll 的 私有 cache。 运 行程 序 时 ， 与 随机 存储 器 RAM 相 比 ，cache 是 一 种 快速 存储 指令 
和 数据 的 存储 器 。 每 一 对 处 理 器 (P0 和 P1，P2 和 P3， 等 等 ) 共享 一 个 第 2 级 的 cache ， 与 L1 
cache 相 比 ， 它 有 更 大 的 容量 和 稍 慢 的 速度 。 最 后 ，8 个 处 理 器 共享 一 个 第 3 级 的 cache， 而 与 
L2 cache 相 比 ， 它 有 更 大 的 容量 ， 速 度 更 慢 ， 但 它 仍 比 RAM 的 工作 速度 要 快 。 借 助 在 L2 和 L3 
cache 中 进行 信息 交换 ， 可 在 8 个 处 理 器 间 实 现 数据 共享 。 
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图 1-5 运行 实验 的 多 核 计 算 机 系统 的 结构 。 每 个 处 理 器 有 一 个 私有 的 L1 cache， 与 “芯片 友 ” 共 享 一 个 
L2 cache， 并 与 其 他 的 处 理 器 共享 L3 cache ` 

第 1 个 求解 : 尝试 1 ”我 们 将 使 用 一 个 线程 程序 设计 模型 ， 其 中 ， 每 个 线程 运行 在 一 个 专 

用 的 处 理 器 上 ， 而 线程 间 的 通信 通过 共享 存储 器 (包括 cache) 完成 。 因 此 ， 每 个 线程 有 自己 
的 进程 状态 ， 但 所 有 进程 共享 存储 器 和 文件 状态 。 统 计 3 的 个 数 的 串 行 代码 如 下 : 
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1 int *array; 
2 int length; 
3 int count; 
4 
5 int count3s() 
6 { 
7 int i; 
8 count=0; 
9 for(i=0; i<length; i++) 
10 { 
11 if (array[i]==3) 
12 
13 countt++; 
14 } 
15 } 
16 return count; 
17 } 


为 实现 该 代码 的 一 个 并 行 版 本 ， 我 们 可 划分 该 数组 ， 以 使 每 个 线程 负责 LI/ 数组 的 统计 3 的 
个 数 的 工作 ， 其 中 十 线程 数 。 图 1-6 示 出 了 当 ! = 4 和 长 度 = 16 时 是 如 何 划分 工作 的 。 


长 度 =16 t=4 








数组 [213[oj2[s|s| ofo]1 3]2]2 3[i]o 
eae 


On A M&W Nh FE 


线程 0 线程 1 线程 2 线程 3 


图 1-6 向 线程 分 配 数据 的 示意 图 。 按 连续 的 索引 进行 分 配 


我 们 可 以 用 函数 thread_create( ) 来 实现 这 一 逻辑 ， 该 函数 有 两 个 参量 : 要 执行 的 国 数 名 和 
标识 线程 ID 的 一 个 整数 。 它 将 派生 一 个 线程 以 执行 所 指定 的 函数 ， 并 以 线程 的 ID 作 为 一 个 参 
数 。 图 1-7 中 给 出 了 该 求解 的 结果 程序 。 


int t; /* 线程 数 */ 
int *array; 
int length; 
int count; 


void count3s() 


{ 


} 


int i; 

count = 0; 

/* 创建 7 个 线程 */ 
for(i=0; i<t; i++) 


{ 


thread_create(count3s_thread, i); 


} 


return count; 


void count3s_thread(int id) 


{ 





/* 该 线程 应 完成 的 数组 计算 部 分 
should work on */ 
int length_per_thread=length/t; 
int start=id*length_per_thread; 


图 1-7 用 线程 求解 统计 3 的 个 数 的 第 1 个 尝试 


for(i=start; i<start+length_per_thread; i++) 
{ 


if(array{iJ==3) 


countt+t; 





图 1-7 ( 续 ) 


遗憾 的 是 ， 这 段 表 面 上 很 简单 的 代码 并 不 会 生成 正确 的 结果 ， 因 为 在 第 29 行 递增 (加 1) 
count 的 语句 中 存在 竞 态 条 件 (race condition)。 当 执行 结果 依赖 于 两 个 以 上 的 事件 时 ， 就 会 出 
现 竞 态 条 件 。 这 里 之 所 以 会 出 现 竞 态 条 件 ， 是 因为 递增 count 的 语句 在 现代 机 器 上 通常 实现 为 
以 下 的 一 串 简单 指令 : 

。 装 载 count 到 一 个 寄存 器 

。 递 增 count 

。 将 count 写 回 存储 器 

这 样 ， 当 两 个 线程 执行 count3s_threadO0 代 码 时 ， 上 述 的 指令 可 能 交叉 执行 ， 如 图 1-8 所 示 。 
交叉 执行 的 结果 使 得 count 的 值 是 1 而 不 是 2。 当 然 ， 可 能 还 存在 许多 其 他 的 交叉 执行 ， 其 中 某 
些 会 产生 正确 的 结果 ， 而 另 一 些 可 能 会 产生 不 正确 的 结果 ， 其 根本 的 问题 在 于 ， 对 count 的 递 
增 不 是 一 个 原子 操作 ， 即 它 是 可 中 断 的 。 





线程 1 线程 2 
装载 count<>0 [ | 
装载 
vase 递增 时 间 
count+>1 
存储 存储 
count < 一 1 f 











图 1-8 对 未 保护 变量 count 访 问 时 可 能 出 现 的 一 种 交叉 ， 表 示 一 种 竞 态 条 件 

注 : 符号 心 表 示 拥 有 该 值 。 

第 2 个 求解 : 尝试 2 ”我 们 可 以 使 用 提供 互 斥 功能 的 mutex ( 互 斥 体 ) 解决 上 面 的 问题 。 
mutex 是 一 个 具有 两 个 状态 (上 锁 和 开锁 ) 和 两 种 方法 (lock0 和 unlock0) 的 对 象 。 这 些 方法 
的 实现 将 保证 ， 当 一 个 线程 企图 上 锁 一 个 mutex 时 ， 它 首先 要 检查 该 mutex 是 否 已 上 锁 。 如 果 
已 上 锁 ， 它 就 等 待 直 到 该 mutex 处 于 开锁 状态 后 它 再 将 其 上 锁 。 通 过 使 用 mutex ， 我 们 就 可 以 
对 希望 以 原子 方式 执行 的 对 象 加 以 保护 ， 通 常 称 被 保护 的 代码 为 临界 区 (critical Section) ， 可 
以 保证 ， 在 任何 时 间 只 有 一 个 线程 能 对 它 进行 访问 。 对 于 统计 3 的 求解 问题 ， 我 们 只 需 简 单 地 
在 递增 count 之 前 ， 先 将 mutex 上 锁 ， 完 成 递增 之 后 再 对 mutex 开 锁 ， 这 样 我 们 就 可 得 到 第 2 个 
解答 (参见 图 1-9)。 

术语 互 斥 和 原子 性 是 一 对 用 来 描述 不 可 中 断 转换 的 相关 术语 ， 

HR 一 段 代码 以 互 斥 方式 执行 是 指 在 任何 时 间 最 多 只 一 个 线程 能 执行 该 段 代 码 。 
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原子 性 术语 原子 性 源 自 数据 库 社 团 。 如 果 一 组 操作 要 么 全 执行 ， 要 么 全 不 执行 ， 则 它 
就 是 原子 的 。 因 此 ， 在 原子 操作 中 不 可 能 看 到 部 分 结果 。 


mutex m; 


void count3s_thread(int id) 


{ 
/* 该 线程 应 完成 的 数组 计算 部 分 */ 
int length_per_thread=length/t; 
int start=id*length_per_ thread; 


SrA URW DhY 哺 


for(i=start; i<start+length_per thread; i++) 
{ 
if(array[iJ]==3) 
{ 
mutex_lock(m) ; 
countt+t+; 
mutex_unlock(m); 





图 1-9 求解 统计 3 的 个 数 的 第 2 个 尝试 在 count3s_thread0 中 对 count 变 量 提供 互 斥 体 保护 


经 过 上 述 修改 后 ， 我 们 的 第 2 个 尝试 就 是 一 个 正确 的 并 行程 序 。 遗 憾 的 是 ， 我 们 能 从 图 
1-10 所 示 的 性 能 直方 图 中 看 到 ， 求 解 的 速度 比 最 初 的 顺序 代码 慢 很 多 。 当 用 一 个 线程 时 ， 其 执 
行 时 间 况 是 顺序 代码 的 4 倍 多 ， 可 见 使 用 互 斥 体 的 开销 使 性 能 受到 很 大 影响 。 更 糟 的 是 ， 当 我 
们 使 用 2 个 线程 时 〈 每 个 线程 运行 在 自己 的 处 理 器 上 ) ， 所 得 到 的 性 能 比 只 使 用 单个 线程 还 要 
坏 ， 这 是 由 于 锁 竞 争 而 导致 的 性 能 下 降 ， 因 为 每 个 线程 要 花费 额外 的 时 间 等 待 临界 区 的 开锁 。 





串 行 时 间 T=1 T=2 T=4 T=8 


图 1-10 第 2 个 统计 3 的 个 数 的 求解 方法 的 性 能 


第 3 个 求解 : 尝试 3 ”在 了 解 了 锁 开销 和 锁 竞争 后 ， 我 们 用 第 3 个 版 本 来 实现 求解 ， 这 次 我 
们 采用 更 大 的 粒度 或 共享 单位 进行 运算 。 我 们 不 让 线程 在 每 次 递增 count 时 去 访问 临界 段 ， 而 
是 在 每 个 线程 的 私有 变量 private_count 中 累加 各 自 的 3 统计 次 数 。 图 1-11 中 显示 了 第 3 种 解答 的 
新 代码 。 


14 划一 部 分 基 AE 





以 增加 少量 的 额外 存储 器 为 代价 ， 现 在 新 程序 的 运行 速度 显著 加 快 ， 如 图 1-12 所 示 。 


1 private_count[MaxThreads]}; 
2 mutex m; 


void count3s_thread(int id) 


{ 
/* 该 线程 完成 的 数组 计算 部 分 */ 
int length per thread=length/t; 
int start=id*length per thread; 


3 

4 

5 

6 

7 

8 

9 

10 for(i=start; i<starttlength per thread; i++) 
11 { : 
12 if(array[(i} == 3) 

13 { 

14 private _count[id]++; 

15 } 

16 } 

17 mutex_lock(m); 

18 count+=private_count[id]; 

19 mutex_unlock(m); 








20 } 


图 1-11 在 第 3 种 统计 3 的 个 数 的 求解 方法 中 ，count3s_thread () 使 用 private_count 数 组 元 素 


图 1-12 第 3 个 统计 3 的 个 数 的 求解 方法 的 性 能 


从 图 1-12 中 可 以 看 到 ， 使 用 一 个 线程 的 执行 时 间 已 与 顺序 代码 非常 接近 ， 因 此 我 们 采用 
的 改变 已 经 消除 了 大 部 分 锁 开 销 。 但 是 ， 当 使 用 两 个 线程 时 ， 仍 然 有 显著 的 性 能 下 降 、。 这 一 
次 所 出 现 的 性 能 问题 很 难 用 检查 源 程序 的 简单 方法 发 现 问题 。 我 们 需要 对 低层 的 硬件 进行 详 
细 的 分 析 。 特 别 是 ， 我 们 的 硬件 使 用 一 种 协议 以 保持 一 致 性 的 cache， 即 保证 两 个 处 理 器 所 观 
察 到 的 是 相同 的 存储 器 映 象 。 如 果 处 理 器 0 对 一 个 指定 的 存储 单元 内 容 进行 修改 ， 则 硬件 将 使 
任何 驻 留 在 处 理 器 1 的 L1 cache 中 该 存储 单元 的 缓存 拷贝 无 效 ， 以 防止 处 理 器 1 意外 地 访问 访 
数据 的 旧 值 。 如 果 两 个 处 理 器 依次 重复 修改 相同 的 数据 ， 这 种 cache 一 致 性 协议 将 会 相当 昂贵， 


; ZI 时 论 15 
J 由 


因为 此 时 数据 会 在 两 个 cache 中 跳 来 跳 去 。 

第 4 个 求解 :尝试 4 ”在 我 们 的 代码 中 ， 似 乎 不 存在 任何 共享 的 修改 数据 。 可 是 要 知道 ， 
cache 一 致 性 的 单位 是 cache 行 ， 在 我 们 的 机 器 中 cache 行 的 大 小 是 64 字 节 。 因 此 ， 虽 然 在 处 理 
器 P0 和 PI 上 的 线程 对 private_count[0] 或 private_count[1] 进 行 互 斥 访问 ， 但 低层 机 器 将 它们 放 
在 同一 个 64 字 节 的 cache 行 中 ， 因 为 cache 一 致 性 的 维护 粒度 是 cache 行 ， 对 cache 行 中 的 任何 部 
分 修改 等 同 于 对 整个 行 的 修改 ， 由 于 共享 的 cache 行 在 两 个 cache 间 的 跳跃 ， 使 得 private_ 
count[0] 和 private_ count[1] 被 重复 地 更 新 (参见 图 1-13) 。 逻 辑 上 不 同 的 数据 共享 一 个 物理 
cache 行 的 现象 称 为 假 共享 (false sharing)。 为 了 消除 假 共享 ， 我 们 可 以 填充 (padding) 私有 
计数 器 数组 使 它们 处 于 不 同 的 cache 行 (参见 图 1-14) 。 





ount[1] 





图 1-13 假 共享 。 当 一 个 线程 (如 P0) 修改 它 的 private_count (private_count (0)) 时 ， 一 个 cache 行 
(Private_count 所 在 行 ) 便 从 RAM 移 动 到 L3 cache， 再 到 L2 cache， 最 后 到 L1 cache。 当 另 一 线 
程 (如 P1) 访问 它 自己 的 private_count (private_count (1)) 时 ， 就 会 使 PO 中 的 L1 变 为 无 效 ， 


该 无 效 行将 被 写 回 L2 cache, 然后 该 行 再 从 L2 cache 被 取 到 P1 的 L1 cache 中 。 这 样 该 cache 行 就 
在 L1 cache 和 L2 cache 间 跳跃 ， 虽然 PO 和 P1 访 问 的 是 不 同 的 存储 单元 ， 但 它们 使 用 同一 cache 行 





struct padded int 
{ 





1 
2 
3 int value; 

4 char padding[ 60]; 

5 } private_count[MaxThreads]; 
6 

7 

8 


void count3s_thread(int id) 
{ 
9 /* 该 线程 应 完成 的 数组 计算 部 分 */ 
10 int length_per_thread=length/t; 
11 int start=id*length_per_thread; 
12 
13 for(i=start; i<startt+tlength_per_thread; i++) 
14 { 
15 if(array{i] == 3) 
16 { 
17 private _count[id]++; 
18 } 
19 3} 
20 mutex_lock(m); 
21 count+=private_count[id].value; 
22 mutex_unlock(m); 








23 } 


图 1-14 第 4 个 统计 3 的 个 数 的 求解 方法 中 的 count3s_thread0)， 私有 count 元 素 得 到 填充 ， 从 而 强制 其 分 配 到 
不 同 的 cache 行 


16 第 一 部 分 R Al 
采用 填充 措施 后 ， 第 4 种 求解 方法 就 消除 了 使 用 互 斥 体 的 开销 和 竞争 ， 如 图 1-15 所 示 ， 我 们 
已 基本 取得 了 成 功 。 我 们 的 并 行 求解 在 使 用 一 个 线程 时 执行 速度 已 几乎 与 顺序 执行 一 样 快 ， 在 使 
用 两 个 线程 时 ， 并 行程 序 的 执行 速度 接近 于 顺序 程序 的 两 倍 ， 而 在 4 个 线程 时 ， 则 几乎 为 四 倍 。 


图 1-15 统计 3 问题 第 4 个 解 的 结果 表明 ， 单 处 理 器 的 性 能 与 顺序 求解 接近 ， 而 2 个 和 4 个 处 理 器 的 性 能 则 
几乎 为 顺序 的 2 倍 和 4 倍 ， 但 是 8 个 处 理 器 并 没有 获得 额外 的 性 能 好 处 


余下 的 唯一 问题 是 当 使 用 8 个 线程 时 ， 其 性 能 与 4 个 线程 时 差不多 。 这 种 行为 可 能 有 许多 
理由 (与 硬件 的 特性 有 关 )， 但 我 们 猜测 ， 对 于 如 此 大 的 数组 ，L2 cache 的 带宽 显得 不 足 。 通 
过 在 不 包含 数值 3 的 数组 上 重复 进行 实验 ， 我 们 得 到 了 图 1-16， 它 验证 了 我 们 的 猜测 。 我 们 看 
到 即使 在 这 样 的 情况 下 ， 当 未 对 共享 变量 进行 更 新 时 ， 用 8 线程 代替 4 线程 ， 性 能 没有 什么 改 
进 。 虽 然 统计 3 计算 所 完成 的 工作 几乎 与 存储 器 容量 毫 无 关系 ， 但 图 1-16 还 是 指出 了 在 未 来 的 
多 核 芯片 中 将 存在 的 存储 器 有 限 带 宽 的 问题 。 如 果 IO 技 术 不 作 改变 ， 则 随 着 晶体 管 密度 的 增 
加 ， 将 在 一 个 芯片 上 集成 更 多 的 核 ， 而 如 果 不 显 著 地 增长 芯片 周 长 以 布 放 更 多 的 IO 脚 ， 则 每 
个 芯片 的 带宽 必 将 会 减 小 。 





图 1-16 在 不 含 数值 3 的 数组 上 ， 用 第 4 个 求解 方法 求解 统计 3 问题 所 获得 的 性 能 表明 ， 存 储 器 带宽 的 限制 
阻 得 了 8 处 理 器 方案 的 性 能 改进 
我 们 的 方法 学 ”上述 的 实验 结果 是 在 8 个 Intel Xeon 处 理 器 上 获得 的 ，8 个 处 理 器 是 由 4 个 


7100 系 列 双 核 多 处 理 器 芯片 组 成 的 ， 主 频 为 2.60 GHz。 该 系统 有 三 级 cache: 
L3 cache: 4MB ， 合 一 式 ，16 路 组 相 联 


HIF $ © 17 
n 从 17 
cache 行 大 小 为 64B ( 字 节 ) 
L2 cache: 1 MB (每 核 ， 总 计 2 MB) ， 合 一 式 ，8 路 组 相 联 
L1 cache; 16 KB 数据 和 16 KB 指令 ，8 路 组 相 联 
程序 运行 的 数组 数据 项 大 小 为 50 M (SFA), 戎 机 分 布 有 30% 的 数值 3， 实 验 结果 是 
1000 个 程序 运行 所 得 到 的 平均 值 (包括 线程 派生 和 销毁 ) ， 使 用 微 秒 定时 器 。 实 验 使 用 
的 操作 系统 是 GNU/Linux 2.6.19-gento-r5, 编译 器 为 gcc 版 本 4.1.2 并 启用 -O2 优 化 。 


由 上 面 的 例子 我 们 可 以 看 到 ， 创 造 正 确 和 高 效 的 并 行程 序 比 起 书写 正确 和 有 效 的 顺序 程 
序 要 难得 多 。 互 斥 体 的 使 用 说 明 需 要 小 心 控制 处 理 器 间 的 交互 。 私 有 计数 器 的 使 用 说 明 需 要 
判断 并 行 的 粒度 ， 即 进程 间 相互 交互 的 频率 。 填 充 措施 的 使 用 显示 出 对 机 器 细节 了 解 的 重要 
性 ， 因 为 有 些 时 候 ， 小 细节 隐 含 着 大 性 能 。 对 这 些 相互 影响 的 因素 进行 综合 考虑 通常 使 并 行 
性 能 的 优化 非常 困难 。 最 后 ， 我 们 还 看 到 两 个 例子 ， 可 以 在 增加 少量 存储 器 容量 以 获取 并 行 
性 及 性 能 之 间 进 行 折 中 。 


1.4 目标 : 可 扩展 性 和 性 能 可 移植 性 


统计 3 程序 说 明了 两 个 问题 ， 一 是 并 行 可 以 提高 性 能 ， 二 是 实现 这 一 点 会 很 复杂 。 在 了 解 
了 多 核 处 理 器 所 面临 的 问题 ( 竞 态 条 件 、 粒 度 问题 以 及 假 共享 ) 后 ， 我 们 很 容易 认为 并 行程 
序 设计 只 需 考虑 正确 性 和 性 能 这 两 个 问题 。 事 实 上 ， 本 书 的 目的 更 为 宽泛 。 我 们 的 目的 是 要 
帮助 读者 编写 好 的 并 行程 序 ， 这 种 并 行程 序 是 指 具有 以 下 的 4 个 特征 ， 

“正确 

* 好 的 性 能 

* 可 扩展 为 使 用 几 千 个 处 理 器 

* 可 移植 到 各 种 类 型 的 并 行 平台 上 

第 一 个 目的 ， 除 了 要 注意 获得 并 行程 序 正确 性 通常 比 顺序 程序 要 难得 多 以 外 ， 无 须 多 做 
解释 。 第 二 个 目的 看 起 来 也 比较 清楚 ， 但 我 们 将 在 第 3 章 中 看 到 ， 我 们 所 指 的 “好 性 能 ”的 定 
义 存在 很 多 微妙 。 

对 第 三 个 和 第 四 个 目的 需要 做 一 些 详细 的 解释 ， 因 为 它们 似乎 很 玄 虚 且 常常 被 认为 不 是 
侣 要 的 。 例 如 ， 对 只 有 几 个 核 的 处 理 器 进行 编程 的 人 ， 他 对 有 几 千 个 处 理 器 的 超级 计算 机 几 
了 没有 什么 兴趣 。 确 实 ， 总 是 存在 这 样 的 一 些 市 场 ， 其 终极 的 目标 是 性 能 ， 因 此 不 惜 采 用 低 
级 的 不 可 移植 的 求解 方案 。 但 对 于 绝 大 多 数 程 序 员 来 讲 ， 可 扩展 性 和 可 移植 性 是 非常 重要 的 ， 
因为 并 行 硬件 的 前 景 变化 非常 迅速 。 例 如 ， 第 一 个 多 核 芯 片 只 有 两 个 核 ， 但 Intel 已 经 在 讨论 
有 80 个 核 的 芯片 。 当 然 ， 随 着 芯片 中 核 数 的 增加 ， 其 他 的 微 体系 结构 特性 ， 如 存储 器 系统 ， 
也 不 得 不 跟着 改变 。 在 快速 变化 的 硬件 前 景 情况 下 ， 最 好 是 不 要 为 新 出 现 的 硬件 而 弄 得 手 从 
脚 乱 。 要 做 到 这 一 点 ， 就 需要 从 设计 的 一 开始 考虑 可 扩展 性 和 可 移植 性 ， 按 此 原则 设计 的 各 
序 将 会 有 很 长 的 生命 周期 ， 这 才 是 对 程序 设计 中 投入 的 巨大 智力 和 经 济 投资 的 合理 举措 

下 面 我 们 将 对 可 扩展 性 和 可 移植 性 进行 更 为 详细 的 介绍 。 


1.4.1 可 扩展 性 


为 了 了 解 可 扩展 性 问题 ， 可 以 考虑 我 们 的 代码 随 着 处 理 器 数 的 增加 会 受到 什么 影响 ， 统 
证 3 程序 是 参数 化 的 ， 所 以 线程 数 可 以 变化 。 这 种 灵活 性 允许 我 们 在 一 个 有 16 个 核 的 芯片 上 运 
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行程 序 而 几乎 不 用 修改 原来 的 程序 。 初 看 起 来 ， 我 们 好 像 已 得 到 一 个 通用 解 ， 它 可 以 扩展 到 
几 千 个 线程 而 只 需 改 变 MaxThreads 的 值 。 但 实际 上 我 们 并 没有 做 到 这 一 点 。 确 实 ， 扫 描 数 
组 可 以 将 数组 分 成 独立 的 段 ， 这 样 任何 进程 数 都 可 以 并 行 操作 。 但 是 将 中 间 结 果 组 合 无 法 做 
到 这 一 点 ， 因 为 所 有 线程 要 更 新 一 个 全 局 和 。 当 线程 数 很 大 时 ， 我 们 将 再 次 碰 到 锁 竞 争 的 问 
题 。 显 然 ， 我 们 的 成 对 求 和 方法 可 以 修正 这 一 问题 。 可 扩展 性 需要 可 扩展 的 程序 设计 的 训练 。 

更 一 般 的 ， 当 并 行 处 理 器 的 数目 增加 时 ， 物 理 的 极限 将 迫使 设计 加 以 改变 ， 从 而 影响 程 
序 完 成 运算 。 例 如 ， 通 信 时 延 (在 处 理 器 间 传 送信 息 时 的 延迟 ) 必 将 随 着 处 理 器 数 的 增加 而 
增长 ， 这 只 是 因为 光速 限制 的 缘故 。 在 一 个 单 芯片 上 ， 存 在 不 同 癌 题 ， 但 当 必 片上 的 核 数 很 
大 时 ， 它 们 仍 会 影响 通信 时 延 。 对 于 少量 的 处 理 器 ， 处 理 器 的 邻近 能 加 快 某 些 操作 ， 但 当 系 
统 的 规模 增 大 时 ， 这 些 操作 就 不 会 加 快 。 在 可 能 的 情况 下 ， 获 得 这 些 收益 是 有 意义 的 ， 但 是 
程序 的 成 功 必 须 避 免 依 赖 于 这 种 收益 。 高 质量 的 程序 应 当 能 充分 利用 并 行 计算 机 中 的 快速 部 
件 ， 并 避免 过 度 使 用 慢 速 的 部 件 。 


1.4.2 性 能 可 移植 性 


刚才 所 讨论 的 问题 一 一 当 处 理 器 数目 增加 时 物理 极限 对 并 行 计算 机 特征 的 影响 
是 使 某 些 操作 慢 下 来 ， 实际 上 问题 将 会 更 加 严重 。 

体系 结构 设计 师 为 了 尽力 解决 物理 极限 ， 已 经 创造 了 许多 并 行 计 算 机 设计 。 这 些 机 器 相 
互 之 间 有 很 大 的 不 同 。 不 像 在 顺序 计算 机 中 的 情况 ， 一 个 新 计算 机 只 需要 将 源 代码 重新 编译 
就 能 够 很 好 地 执行 。 在 一 个 并 行 计 算 机 上 能 很 好 地 运行 的 程序 ， 在 一 个 新 的 并 行 机 上 可 能 不 
得 不 重 写 一 个 新 的 程序 。 

举例 来 说 ， 并 行 计算 机 通常 可 被 分 为 以 下 三 类 之 一 : 共享 存储 器 ， 以 多 核 处 理 器 为 代 
表 ， 共 享 地 址 空间 ， 以 各 种 超级 计算 机 为 代表 ; 分离 地 址 存储 器 (无 共享 )， 以 机 群 为 代表 。 
这 些 区 别 将 影响 程序 中 每 一 次 对 存储 器 的 访问 ， 因 此 它 对 于 如 何 编写 程序 有 很 大 的 影响 。 试 
图 移植 到 所 有 这 些 平 台 上 的 程序 必须 对 这 些 不 同 的 存储 器 结构 是 强壮 (EE) 的 ， 而 保证 强 
壮 性 的 技术 将 贯穿 于 本 书 的 叙述 中 。 

按 存储 器 能 力 的 分 类 只 说 明了 一 个 方向 的 变化 。 并 行 处 理 器 中 还 有 许多 其 他 的 差异 。 我 
们 可 以 通过 设置 一 个 足够 高 的 抽象 层 使 得 这 些 差异 变 得 不 可 见 ， 来 解决 可 移植 性 问题 ， 此 后 ， 
编译 器 会 映射 该 高 层 规范 到 平台 。 这 种 策略 将 使 我 们 的 程序 对 并 行 硬件 不 敏感 ， 但 这 不 是 一 
个 好 主意 。 一 般 来 讲 ， 借 助 编译 器 确实 能 完成 这 种 映射 ， 可 是 它们 经 常会 引入 软件 层 以 实现 
这 种 抽象 ， 这些 附加 的 软件 隐藏 了 硬件 的 性 能 特征 ， 使 得 程序 员 很 难 了 解 他 们 所 编写 的 代码 
的 表现 。 如 果 我 们 希望 获得 高 性 能 ， 就 不 能 完全 与 低层 的 硬件 脱 钧 。 因 此 ， 我 们 将 在 第 2 章 中 
采用 一 个 不 同 的 策略 来 解决 这 一 问题 。 

因此 ， 我 们 的 目的 是 保证 性 能 的 可 移植 性 ， 通 常 称 为 性 能 可 移植 性 (performance 
portability ) 。 使 程序 能 运行 在 不 同 的 并 行 平 台 上 是 远 远 不 够 的 ， 程 序 还 必须 能 很 好 地 运行 在 
所 有 这 些 平台 上 。 


1.4.3 原理 第 一 
本 书 不 会 为 编写 好 的 并 行程 序 提供 循序 渐进 的 教程 ， 相 反 ， 本 书 着 重 并 行 计 算 的 基本 原 





不 只 


O 可 参见 图 1-11 和 图 1-14。 一 一 译 者 注 
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理 ， 解 释 各 种 现象 ， 并 阐明 为 什么 这 些 现象 可 以 体现 成 功 并 行 编 程 的 机 遇 或 阻碍 。 采 用 这 一 
方法 的 理由 有 两 方面 。 首 先 ， 通 过 侧重 原理 ， 我 们 希望 能 提供 持久 的 知识 ， 这 些 知 识 的 生命 
周期 将 超过 最 新 硬件 和 软件 技术 的 细节 ， 如 我 们 已 指出 的 那样 ， 这 些 技术 的 变化 异常 迅速 。 
其 次 ， 更 为 重要 的 是 ， 并 行程 序 设 计 社 区 还 没有 所 有 的 答案 ， 因 此 逐步 的 求解 是 不 可 能 的 。 
的 确 ， 我 们 的 目的 之 一 是 鼓励 下 一 代 的 研究 人 员 了 解 当 前 技术 的 限制 ， 这 样 他 们 就 能 构建 未 
来 更 好 的 解决 方案 。 

在 介绍 这 些 原理 后 ， 我 们 将 讨论 一 些 在 当代 并 行 机 程序 设计 中 流行 的 程序 设计 语言 和 工 
县 。 同 样 ， 我 们 的 目的 是 更 多 地 关注 隐藏 在 这 些 方法 背后 的 原理 ， 而 不 是 将 读者 调教 成 为 特 
殊 语 言 的 专家 。 为 此 ， 我 们 的 论述 是 很 有 限 的 ， 期 盼 读者 查阅 参考 手册 以 获取 更 完整 和 更 详 
细 的 信息 。 


1.5 小 结 


本 章 首先 观察 在 日 常生 活 中 熟悉 的 并 行 概念 (为 一 个 目标 同时 做 两 件 或 多 件 事情 )。 尽 管 
熟悉 ， 但 并 行 在 过 去 并 不 是 程序 设计 的 一 个 重要 方面 ， 因 为 顺序 计算 机 的 性 能 几 十 年 来 一 吉 
在 稳步 地 增长 。 这 种 性 能 的 改进 是 由 于 技术 进步 以 及 计算 机 系统 结构 师 在 顺序 处 理 器 设计 中 
采用 并 行 技术 (隐藏 并 行 ) 两 者 结合 的 缘故 。 由 于 体系 结构 的 机 遇 已 在 很 大 程度 上 得 到 开发 ， 
技术 上 的 持续 进步 使 得 具有 多 处 理 器 的 计算 机 成 为 标准 。 这 一 趋势 对 计算 机 的 程序 设计 产生 
了 巨大 的 影响 。 

我 们 注意 到 现 有 的 顺序 程序 一 般 不 能 使 用 并 行 计算 机 。 主 要 原因 是 现 有 的 程序 设计 语言 
和 标准 的 程序 设计 技术 与 传统 冯 - 诺 依 曼 计算 机 体系 结构 的 顺序 处 理 密切 相关 。 并 行 求解 ， 
如 由 几 个 简单 的 计算 ( 求 和 、 并 行 前 组 和 统计 3 的 个 数 ) 所 示 ， 已 经 阐明 了 并 行 计算 的 特征 。 
虽然 ， 它 们 可 能 不 是 我 们 最 初 的 求解 想法 ， 但 仍 是 相当 直观 的 。 在 程序 员 本 能 地 设计 计算 问 
题 的 并 行 求解 之 前 ， 需 要 改变 计算 思维 ， 我 们 称 之 为 范 型 改变 。 

对 并 行 硬件 进行 了 快速 、 不 全 面 的 观察 后 ， 我 们 发 现 了 计算 平台 的 巨大 差异 ， 有 具有 两 
个 处 理 器 的 芯片 到 具有 几 千 个 处 理 器 的 服务 器 中 心 。 尽 管 计算 平台 在 规模 和 设计 上 存在 巨大 
差异 ， 但 它们 的 并 行 特性 仅 依赖 于 一 个 很 小 的 基本 原理 集 。 我 们 认为 侧重 这 些 原理 的 目的 在 
于 使 得 程序 员 编写 的 并 行程 序 具 有 高 性 能 、 可 扩展 性 和 性 能 可 移植 性 。 


历史 回顾 


早 在 20 世 纪 50 年 代 的 第 一 批 商业 机 器 中 就 已 经 在 顺序 计算 机 的 设计 中 采用 了 并 行 技 术 ， 
一 个 里 程 碑 式 的 并 行 机 是 Illiac IV， 于 20 世 纪 70 年 代 由 伊利 诺 伊 大 学 厄 巴 纳 - 尚 佩 恩 分 校 团队 
建造 。 虽 然 Illiac IV 用 低级 的 类 汇编 代码 成 功 地 进行 了 编程 ， 但 开发 将 顺序 (Fortran) 程序 转 
换 成 并 行 形式 的 编译 器 的 任务 则 是 由 David Kuck 教 授 和 他 的 同事 们 完成 的 。 直 到 20 世 纪 末 整 
个 社团 的 研究 者 们 继续 向 这 一 目标 努力 ， 出 现 了 大 量 有 关 并 行 化 编译 器 的 文献 。 


习题 


1. 解释 以 下 有 关 线 程 程序 设计 术语 的 含义 ， 
a. 线程 
b. 竞 态 条 件 


20 种 一 部 分 KR Ah 


c. 互 斥 体 
d. 锁 竞争 

e. 粒度 

f. REFE 

2. 摘 述 如 何 将 成 对 求 和 计算 改 为 寻找 数组 中 的 最 大 元 素 。 

3. 修改 成 对 求 和 程序 以 log n 时 间 求 解 统计 3 计算 ,假设 P = n /2，。 

4. 修改 成 对 求 和 程序 求解 统计 3 计算 ,假设 x = 1024, P=8, 

5. HforalB BRR, PER JABA. 

6. 找 一 个 离 您 最 近 的 并 行 计算 机 一 一 也 许 膝 上 计算 机 或 实验 室 里 的 计算 机 一 一 并 设法 查 明 它 有 多 
少 个 处 理 器 ， 每 个 处 理 器 能 访问 多 大 的 存储 容量 ， 以 及 可 以 使 用 哪些 语言 和 软件 进行 编程 。 为 
该 计算 机 编写 一 个 “hello world” 程 序 。 

7. 如 前 所 述 ， 树 求 和 算法 总 是 用 nn = 2” 加 以 说 明 ， 以 使 树 完全 平衡 。 对 此 算法 加 以 修改 以 适用 于 n 


A FEZ TTL 
8. 如 前 所 述 ， 树 求 和 算法 需要 P = n/2 个 处 理 器 ， 此 时 能 实现 完全 并 行 。 修 改 树 求 和 算法 以 适用 于 
处 理 器 数 小 于 n /2 的 情况 。 


9. 任意 写 一 串 16 个 整数 的 序列 。 用 并 行 前 缀 算法 创建 一 个 “最 大 前 绎 ”的 新 序列 ， 构 建 该 树 结构 
(图 1-4) 并 建立 向 上 和 向 下 的 值 流动 。 如 果 该 算法 使 用 带 符号 数 ， 则 流入 根 的 是 什么 值 ? 
10. 用 C 语 言 编写 并 行 前 组 算法 中 在 结 点 上 执行 的 向 上 流 和 向 下 流 的 代码 段 。 


第 2 章 认识 并 行 计算 机 


要 编写 高 效 的 并 行程 序 ， 很 重要 的 一 点 是 要 认识 并 行 硬件 。 关 于 这 一 主题 有 大 量 的 资料 ， 
因为 多 年 来 已 经 开发 了 许多 并 行 体系 结构 。 我 们 不 打算 全 面 地 讨论 这 一 主题 。 相 反 ， 我 们 的 
目的 是 描述 当前 一 组 有 代表 性 的 机 器 ， 使 程序 员 有 一 个 坚实 的 并 行程 序 设计 基础 。 


2.1 用 可 移植 性 衡量 机 器 特征 


如 第 1 章 中 所 讨论 的 ， 并 行 机 存在 相当 大 的 差异 ， 从 具有 几 个 处 理 器 的 多 核 芯片 到 拥有 几 
千 个 处 理 器 的 机 群 计 算 机 。 为 了 编写 优质 的 并 行程 序 ， 对 于 硬件 我 们 到 底 应 该 知道 多 少 ? 一 
个 极端 的 答案 是 ， 我 们 应 该 知晓 机 器 深层 次 的 知识 细节 ， 因 为 有 时 这 样 能 获得 显著 的 性 能 改 
进 。 可 是 ， 由 于 硬件 通常 只 有 较 短 的 生命 周期 ， 因 此 很 重要 的 一 点 是 ， 我 们 编写 的 程序 不 应 
与 任何 具体 的 机 器 关联 太 紧密 ， 否 则 当 新 一 代 的 机 器 出 现时 将 不 得 不 重 写 我 们 的 程序 。 因 此 ， 
可 移植 性 的 目标 促使 我 们 忽略 某 些 机 器 细节 。 

对 于 “我 们 应 该 知道 多 少 ”这 个 问题 的 回答 很 可 能 依赖 于 用 户 。 在 某 些 情况 下 ， 程 序 员 
愿意 付出 巨大 的 努力 去 改进 性 能 ， 例 如 ， 游 戏 开 发 者 、 供 入 式 系统 程序 员 和 硬件 供应 商 。 而 
其 他 的 许多 人 则 期 望 所 编写 的 代码 有 更 长 的 生命 期 ， 从 而 促使 另 一 种 观点 的 产生 ， 即 应 该 更 
侧重 可 移植 性 。 

因此 ， 本 章 的 目的 就 是 首先 曾 述 存在 于 并 行 计 算 机 中 的 差异 性 ， 然 后 考虑 抽象 机 器 细节 
以 支持 性 能 可 移植 性 的 方法 。 我 们 将 从 观察 6 种 特殊 的 并 行 计算 机 开始 ， 阅 明 这 些 平台 如 何不 
同 。 然 后 ， 通 过 考虑 两 个 并 行 计算 机 的 抽象 模型 ，PRAM 和 CTA， 从 这 些 机 器 的 细节 完成 抽 
象 。 最 后 ， 我 们 将 讨论 提供 给 程序 员 的 3 种 主要 通信 机 制 :; 共享 存储 器 ， 单 边 通信 以 及 消息 传 
递 。 


2.2 6 种 并 行 机 介绍 


我 们 现在 将 更 仔细 地 观察 6 种 并 行 计 算 机 ， 从 而 反映 当前 并 行 硬件 的 差异 性 。 通 常 ， 主 要 
强调 那些 与 程序 员 有 关 的 主题 的 细节 ， 而 且 因为 我 们 将 对 其 综合 ， 因 此 没有 必要 细致 地 研究 
这 些 细节 。 


2.2.1 芯片 多 处 理 器 


基于 硅 工 艺 的 持续 改进 ， 即 众所周知 的 摩尔 定律 ， 现在 已 经 允许 计算 机 制造 商 在 一 个 硅 
芯片 上 构造 多 指令 的 执行 引擎 ， 俗 称 核 (core) 。IBM 是 第 一 个 多 核 设 计 的 制造 商 ， 在 2002 年 
宣布 了 它 的 PowerPC 970。AMD 于 2005 年 5 月 推出 了 一 个 Dual Core Opteron 芯片， 而 Intel 则 在 
2006 年 1 月 推出 了 它 的 Core Duo Pentium 。 我 们 先 来 察看 Core Duo， 虽 然 所 有 这 些 芯 片 在 本 章 
中 都 将 亮相 。 

Intel Core Duo 以 下 是 Intel Core Duo 设 计 的 特性 ; 

“一 个 芯片 上 有 两 个 32 位 奔腾 处 理 器 
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。 每 个 处 理 器 有 自己 的 32 K Ll 数据 cache 和 指令 cache 

。 共 享 2 MB 或 4MB 的 L2 cache 

。 共 享 存储 器 控制 器 ，L/O 控 制 器 及 其 他 

。 借 助 共享 存储 器 两 个 处 理 器 间 能 进行 快速 的 片 内 通信 

Intel Core Duo 设 计 基 于 Pentium M 的 体系 结构 ， 它 执行 单线 程 代码 的 速度 与 单 处 理 器 的 


Pentium M 一 样 ， 所 以 对 未 并 行 化 的 程序 来 讲 ， 性 

能 并 没有 损失 。 图 2-1 显 示 了 Core Duo 的 逻辑 结构 。 
两 个 处 理 器 有 32 KB 私有 1 级 指令 cache (LI1-I) 和 数 ES RAHI 
据 cache (LI-D)。 这 些 cache 由 共享 2MB (或 4MB) FF 一 一 - 
2 级 cache (L2) 支撑 ，L2 混 合 存储 指令 和 数据 。 总 L2 cache 
线 控制 器 仲裁 L2 cache 和 RAM 之 间 通 过 前 侧 总 线 
(Front Side Bus, FSB) 的 传输 。 

以 程序 员 的 观点 ，Core Duo 体 系 结构 的 关键 特 
性 是 ， 两 个 处 理 器 所 见 到 的 是 一 个 一 致 的 共享 存储 
器 映像 。 当 一 个 处 理 器 访问 RAM 中 的 一 个 单元 时 ， 
含有 该 单元 的 cache 行 就 被 传送 到 L2 cache， 并 从 那 
里 再 传送 到 请 求 处 理 器 的 L1 cache 中 。 如 果 另 一 个 
处 理 器 也 访问 该 单元 ， 由 于 该 单元 已 在 L2 cache 中 ， 
因此 允许 将 该 行 立即 送 往 另 一 个 处 理 器 的 L1 cache。 此 后 ， 两 个 处 理 器 就 能 快速 访问 该 单元 的 
本 地 拷贝 。 

当 一 个 处 理 器 企图 改变 存储 单元 中 的 值 时 会 带 来 复杂 性 。 如 果 一 个 处 理 器 改变 它 的 私有 
L1 撕 贝 ， 而 另 一 个 处 理 器 继续 使 用 它 自 己 的 私有 L1 找 贝 的 旧 值 ， 那 么 该 值 将 变 得 不 一 致 ， 而 
计算 就 会 出 错 ， 也 就 是 说 该 值 是 陈 昌 (stale) 的 。 使 用 cache 一 致 性 协议 就 可 以 避免 这 种 情况 。 
一 致 性 协议 限制 了 两 个 L1 cache 和 L2 cache 之 间 的 交互 ， 它 保证 仅 在 处 理 器 单独 使 用 该 cache 
行 的 情况 下 ， 处 理 器 才 可 以 写 人 私有 的 高 速 缓存 行 单元 ， 此 后 ， 当 另 一 个 处 理 器 使 用 该 行 时 ， 
就 需要 将 已 更 新 的 值 重新 装载 到 它 的 L1 cachet}, Core Duo 的 这 种 特殊 协议 称 为 MESI 协 议 ， 
MESI 是 修改 (Modified) 、 独 占 (Exclusive)、 共 享 (Shared) 和 无 效 (Invalid) 的 缩写 ， 它 
们 是 cache 行 的 四 种 可 能 状态 。 虽 然 MESI 协 议 较 复 杂 ， 但 很 有 效 。 有 了 这 一 协议 ， 不 同 线程 
就 能 通过 共享 存储 器 方便 地 进行 合作 。 

虽然 cache 一 致 性 协议 可 以 防止 一 个 处 理 器 废弃 另 一 个 处 理 器 的 工作 ， 但 在 一 个 芯片 上 连 
接 两 个 核 还 存在 有 其 他 复杂 性 。 首 先 ， 协 议 引 入 了 开销 。 即 为 了 对 一 个 共享 的 cache 行 进行 修 
改 ， 修 改 的 处 理 器 必须 先 获 得 对 该 行 的 独占 使 用 权 。 对 于 在 一 个 芯片 上 共享 的 简单 情况 ， 
Core Duo 进 行 了 优化 ， 从 而 可 以 加 快 操作 速度 ， 不 过 ， 代 价 是 昂贵 的 ， 因 为 它 潜在 地 包含 了 
处 理 器 间 的 交互 (参见 对 称 多 处 理 机 体系 结构 )。 其 次 ， 当 两 个 处 理 器 处 理 同 一 问题 时 ， 它 们 
对 存储 器 带宽 的 要 求 可 能 是 单个 处 理 器 需求 的 两 售 ， 主 要 的 节省 来 自 共享 指令 。Intel 在 Core 
Duo 中 采用 加 倍 平均 带宽 的 方法 来 解决 这 一 问题 。 

对 Intel Core Duo 与 AMD 的 Dual Core Opteron 进 行 比 较 是 非常 有 音义 的 ， 后 者 是 同 代 不 同 
的 2 处 理 器 设计 。 

AMD Dual Core Opteron 以 下 是 AMD Dual Core Opteron 设 计 的 特性 ， 

* 必 片上 有 两 个 AMD64 处 理 器 




















图 2-1 Intel Core Duo 的 逻辑 结构 。 总 线 控制 器 
作为 与 RAM 相 连接 的 前 侧 总 线 的 接口 
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。 每 个 处 理 器 有 一 个 64 K LI 数据 cache 和 指令 cache 

*， 每 个 处 理 器 有 一 个 独立 的 1 MB L2 cache 

。 提 供 共享 存储 器 访问 的 直接 连接 体系 结构 (Direct Connect Architectyre) 

* 借助 系统 请 求 接口 (System Request Interface) ， 两 个 处 理 器 间 能 进行 快速 的 片 内 通信 
AMD 所 采用 的 2 处 理 器 体系 结构 与 Intel 的 稍 有 不 
同 。 图 2-2 显 示 了 Dual Core 的 逻辑 结构 。 处 理 器 tea ae 
执行 来 自私 有 、 专 用 64 KB 的 一 级 指令 cache | 
(L1-1) 和 数据 cache (LI-D) 的 指令 和 数据 。 | 一 有 | 
每 个 处 理 器 有 一 个 组 合 的 私有 1MB L2 cache, 
系统 请 求 接口 (SRI) 承担 存储 器 一 致 的 任务 ， 
保证 两 个 处 理 器 所 见 到 的 是 单一 的 存储 器 映像 。 f in [oo | oa pus] 
存储 器 的 访问 基本 上 如 前 面 所 述 ， 但 AMD 使 用 
MOESI cache 一 致 性 协议 ， 它 是 MESI 协 议 的 扩 “a a 
展 ， 增 加 了 一 个 “拥有 ” (Owned) 状态 ， 即 使 | 
RAM 拥 有 的 是 一 个 陈旧 的 拷贝 ， 该 状态 仍 允 许 图 2-2 AMD Dual Core 的 逻辑 结构 ， 处 理 器 
处 理 器 间 共 享 cache 值 。 对 RAM (或 是 对 其 他 处 ek 
理 器 ) 的 请 求 使 用 行业 标准 HyperTransport 技 术 MEALA caches 由 系统 请 求 接口 所 
实现 。 供 存储 器 的 一 致 性 ，HyperTransport 技 

芯片 多 处 理 器 的 比较 Dual Core 和 Core 术 连 搂 到 RAM 或 其 他 Opteron 艺 片 
Duo 之 间 的 主要 差别 是 L2 cache 的 位 置 ， 在 AMD Dual Core 中 它 是 处 理 器 私有 的 ， 而 在 Intel 
Core Duo 中 它 是 共享 的 。 这 一 差别 虽然 微小 ， 却 很 重要 。 在 L2“ 背 上 ”， 由 SRI 管 理 cache_- 致 
性 ， 使 得 AMD 设 计 不 但 可 使 处 理 器 拥有 更 大 的 私有 存储 器 ， 而 且 也 允许 一 致 性 的 信息 能 很 容 
易 地 与 其 他 处 理 器 结合 ， 从 而 形成 一 个 称 为 对 称 多 处 理 器 (SMP) 的 全 局 体系 结构 。 与 之 相 
Re, 通过 在 L2“ 前 面 ”管理 cache 一 致 性 ， Intel 的 设计 在 需要 时 允许 一 个 处 理 器 更 多 地 利用 它 
的 L2 cache 共 享 ， 并 且 它 支持 低 的 片 内 通信 时 延 。 使 用 单个 2- 处 理 器 芯片 的 系统 更 愿意 采用 
Intel 的 设计 。 而 组 合 几 个 2- 处 理 器 芯片 的 系统 则 青睐 AMD 的 设计 。 从 程序 员 的 观点 看 ， 这 两 
个 设计 在 很 大 程度 上 没有 什么 差别 。 两 种 设计 实现 的 都 是 一 个 一 致 性 的 共享 存储 器 。 


2.2.2 对 称 多 处 理 器 体系 结构 


对 称 多 处 理 器 (SMP, Symmetric multiprocessor) 是 一 种 所 有 处 理 器 访问 单一 逻辑 存储 
器 的 并 行 计算 机 ， 有 时 存储 器 的 一 部 分 在 物理 上 邻近 每 一 个 处 理 器 ， 例 如 ， 在 同一 块 板 上 。 
为 了 获得 一 致 性 的 存储 器 映像 ， 所 有 处 理 器 被 连接 到 一 个 公共 点 ， 通常 是 存储 器 总 线 ， 而 每 
个 处 理 器 能 在 总 线 上 监听 (snoop) 存储 器 上 的 访问 活动 ( 见 图 2-3)， 为 了 说 明 监 听 的 含义 
(存在 有 许多 监听 协议 ) ， 设 想 有 几 个 处 理 器 需要 访问 存储 器 块 (或 cache 行 ) x. 如 果 处 理 器 
P0 从 存储 器 请 求 块 x， 而 处 理 器 P1I 已 经 缓存 有 该 块 ， 则 通过 监听 总 线 ， P11 知道 了 P0 的 请 求 ， 
因此 它 就 将 自己 的 该 块 副本 标记 为 “共享 "， 以 表明 它 也 有 x 的 一 个 副本 。 如 果 处 理 器 P2 对 x 发 
出 一 个 “ 写 请 求 ”， 则 P0 和 P1 均 会 监听 到 这 一 请 求 ， 并 使 它们 所 拥有 的 副本 无 效 ， 以 保证 P2 对 
该 块 的 唯一 拥有 ， 并 保证 它 在 对 x 更 新 时 ， 没 有 其 他 的 处 理 器 能 使 用 x， 当 P2 最 终 完 成 更 新 时 ， 
存储 器 也 将 被 更 新 ， 此 后 对 块 x 的 请 求 将 获得 一 个 新 值 。 
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图 2-3 对 称 多 处 理 器 (SMP) 示意 图 。 每 个 处 理 器 的 cache 控 制 器 通过 公共 的 存储 器 总 线 建立 存储 器 访 
问 请 求 。 所 有 的 cache 控 制 器 监听 存储 器 总 线 ， 留 意 其 他 处 理 器 所 访问 的 那些 地 址 ， 并 调整 它们 
所 缓存 的 值 的 标志 ， 以 保证 一 致 性 cache 的 正确 使 用 


公共 连接 点 总 线 是 一 个 潜在 的 瓶颈 ， 因 为 每 次 只 能 进行 一 次 存储 器 操作 。 总 线 的 串 行使 
用 限制 了 以 这 种 方式 可 连接 的 处 理 器 数 ， 这 就 意味 着 SMP 的 规模 必定 是 较 小 的 ， 通 常 少 于 20 
个 连接 。 注 意 到 瓶颈 是 用 单位 时 间 内 存储 器 请 求 数 来 衡量 的 ， 因 此 较 大 容量 的 L2 高 速 缓存 有 
助 于 减少 总 线 上 的 阻塞 。 另 一 个 含义 是 用 多 核 取 代 处 理 器 无 助 于 构造 一 个 更 大 的 机 器 ， 因 为 
附加 的 核 将 增加 对 总 线 的 存储 器 请 求 ， 从 而 使 瓶颈 更 为 严重 。 

SMP 以 下 列 两 种 方式 获取 高 性 能 ; 借助 小 规模 和 聚 敌 于 总 线 附近 ， 从 而 可 加 快运 行 速 
度 ， 借 助 于 使 用 复杂 的 高 速 缓存 协议 各 处 理 器 就 能 高 效 地 使 用 总 线 上 的 共享 资源 ， 减 少 多 个 
通信 操作 竞争 总 线 和 导致 延迟 的 可 能 性 。AMD Dual Core 的 系统 结构 很 适合 构成 SMP。 下 面 
要 讨论 的 Sun 公 司 的 Sun Fire E25 是 另 一 个 SMP 的 例子 。 

硬件 多 线程 由 于 处 理 器 的 速度 远 远 高 于 存储 器 的 速度 ， 硬 件 多 线程 已 日 赵普 及 。 多 线 

程 的 概念 类 似 于 操作 系统 中 的 上 下 文 切 换 : 在 等 待 长 时 延 的 事件 结束 前 ， 处 理 器 切换 

到 其 他 进程 。 某 些 多 线程 处 理 器 在 每 次 cache 不 命中 时 切换 ， 而 另 一 些 ， 如 Cray MTA1 

(MTA 表 示 Multithreaded Architecturfe， 多 线程 体系 结构 ) ， 则 每 个 周期 切换 一 次 。 硬 件 

多 线程 需要 附加 的 资源 ， 因 此 多 个 处 理 器 间 共 享 硬件 资源 (带宽 、cache、TLB 等 ) 的 

同时 多 线程 (SMT) 已 变 得 相当 普遍 。 然 而 ， 趋 向 更 简单 的 多 核 芯 片 可 能 送 转 SMT 这 

种 发 展 趋 向 。 

Sun Fire E25K 以 下 是 Sun Fire E25 的 特性 ; 

“最 多 可 以 有 72 个 处 理 器 ， 每 个 处 理 器 能 执行 两 个 硬件 线程 

“150MHz 的 Sun Fireplane 由 地 址 、 响 应 和 数据 3 个 交叉 开关 互连网 组 成 ， 此 外 有 18 条 监听 

“所 有 处 理 器 有 相同 的 共享 存储 器 访问 时 延 

“共享 存储 器 容量 为 1.15 TB 

Sun Fire E25K 采 用 了 一 个 很 有 创意 的 共享 存储 器 设计 ， 如 图 2-4 所 示 。18 块 E25K 板 中 的 
每 一 块 含有 4 个 Ultra SPARC IV Cu 处 理 器 ， 每 个 处 理 器 能 直接 访问 多 至 16 GB 的 存储 器 ， 因 而 
整个 系统 共有 1.15TB 共 享 存储 器 。18 块 板 由 地 址 、 响 应 和 数据 3 个 18 x 18 交 叉 开 关 互 连 ， 由 它 
们 处 理 处 理 器 间 的 cache 行 传送 。 此 外 还 有 18 条 监听 总 线 (图 2-4 中 的 虚线 ) 实现 存储 器 的 一 至 
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性 。 在 18 块 板 之 间 ，Sun Fire E25 体系 结构 使 用 一 个 基于 目录 (directory based) 的 cache 一 臻 
性 协议 。 在 基于 目录 的 协议 中 ， 对 存储 器 的 请 求 被 送 往 一 个 集中 的 目录 表 ， 在 该 表 中 保存 有 
所 有 被 缓存 的 存储 器 块 。 与 监听 协议 不 同 ， 基 于 目录 协议 更 具 可 扩展 性 ， 但 时 延 更 长 。 因 为 
每 个 存储 器 的 操作 需 包 括 以 下 3 个 步骤 对 目录 的 最 初 请 求 ， 操 作 转 发 到 相应 cache， 对 请 求 
处 理 器 的 响应 。 


| 





18 x 18 
交叉 开关 





TEPETPP Pee eee 























图 2-4 Sun Fire E25K。18 块 板 由 地 址 、 响 应 和 数据 3 个 交叉 开关 互 连 ， 每 块 板 有 4 个 Ultra SPARC IV Cu 
处 理 器 ， 监 听 总 线 用 虚线 表示 

在 E25K 的 设计 中 ， 交 叉 开 关 提 供 了 巨大 的 总 通信 能 力 。 图 2-5 显 示 了 互 连 4 块 板 的 交叉 开 
关 ， 指 明 在 每 一 对 板 之 间 存 在 一 个 直接 的 连接 。 对 n 个 结 点 来 讲 ， 交 又 开关 的 增长 复杂 性 为 n2， 
所 以 交叉 开关 仅 当 n 值 较 小 时 才 是 实用 的 ，E25K 的 18 x 18 已 接近 极限 。 如 所 指出 的 ， 监 听 是 
一 个 潜在 的 阻塞 源 ， 但 被 监听 的 总 线 仅 是 对 单 板 的 限制 。 监 听 钦 辑 通过 交叉 开关 与 系统 的 其 
余部 分 进行 通信 。 由 于 用 一 个 分 离 的 数据 传输 交叉 开关 专门 处 理 cache 行 的 移动 ， 故 一 致 性 的 
处 理 可 以 并 行进 行 。 





















































图 2-5 连接 4 个 结 点 的 交叉 开关 。 请 注意 输出 和 输入 通道 ， 除 非 有 图 中 所 示 的 连接 ， 交 叉 线 不 会 连接 ， 
通过 设 定 相应 的 一 个 开 圆 ， 一 对 结 点 就 能 直接 相连 
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2.2.3 异 构 芯 片 设计 


上 面 的 扩展 系统 规模 的 方法 是 将 一 个 标准 处 理 器 重复 多 次 ， 另 一 种 不 同 的 扩展 方法 是 以 
一 个 或 多 个 专用 计算 引擎 来 扩展 一 个 标准 的 处 理 器 ， 这 些 专用 计算 引擎 称 为 附属 处 理 器 
(attached processor) 。 其 思想 是 由 标准 处 理 器 完成 通用 、 难 以 并 行 化 的 计算 部 分 ， 很 可 能 标准 
处 理 器 已 执行 得 足够 快 ， 而 由 附属 处 理 器 完成 密集 计算 部 分 。 以 下 是 这 类 设计 的 几 种 比较 熟 
知 的 变化 : 

* 图 形 处 理 部 件 (GPU) 

*。 现 场 可 编程 门 阵列 (FPGA) 

。 为 视频 游戏 设计 的 细胞 (Cell) 处 理 器 

我 们 现在 只 讨论 Cell 的 体系 结构 ， 在 第 10 章 中 我 们 将 再 回 到 异 构 体 系 结构 。 

Cell 定位 于 视频 游戏 市 场 的 Cell 处 理 器 是 由 Sony (索尼 )、IBM 和 Toshiba (东芝 ) 联合 开 
发 的 。Cell 有 一 个 64 位 PowerPC 核 和 8 个 支持 32 位 向 量 操 作 、 称 为 协同 处 理 单元 (SPE, 
Synergistic processing element) 的 专用 核 。Cell 处 理 器 最 重要 的 特性 是 处 理 器 间 有 很 高 的 带宽 ， 
这 是 单元 互 连 总 线 (EIB) 和 连接 到 片 外 RAM 的 12.8GB/s 存 储 器 双 总 线 的 贡献 (参见 图 2-6) 。 
Cell 处 理 器 的 主要 特性 如 下 : 

© 双 线 程 64 位 PowerPC 处 理 器 

. 执行 向 量 指 令 的 8 个 32 位 协同 处 理 单元 (SPE) 

。 每 个 SPE 有 256 KB 的 片 内 RAM 

“连接 SPE 的 高 速 单元 互 连 总 线 (EIB) 
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图 2-6 Cell 处 理 器 的 体系 结构 。 访 体系 结构 设计 用 于 移动 数据 :高速 WO 控 制 器 的 带宽 为 76.8 GB/s， 连 
接 到 RAM 的 双 通 道中 每 一 个 的 带宽 为 12.8 GB/s，EIB 理 论 上 总 带宽 为 204.8 GB/s 
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不 同 于 我 们 已 讨论 过 的 其 他 芯片 多 处 理 器 ，Cell 不 为 协同 处 理 单元 提供 一 致 性 存储 器 ， 因 
此 Cell 的 设计 者 选择 的 设计 原则 是 性 能 和 硬件 简单 性 比 编程 方便 更 为 重要 。 

为 了 保持 性 能 比 可 编程 性 更 重要 的 设计 哲学 ，SPE 有 一 个 128 位 宽 的 数据 通路 ， 以 支持 向 
量 指令 (vector instruction) ， 向 量 指令 中 的 一 个 操作 将 在 几 个 值 上 并 行 完成 ，16 个 值 上 的 8 位 
整数 操作 ，8 个 值 上 的 16 位 整数 操作 ，4 个 值 上 的 32 位 整数 操作 或 ( 单 精度 ) 浮 点 操作 。 这 将 
增加 程序 员 的 编程 难度 ， 程 序 员 必须 小 心地 管理 进出 各 SPE 的 数据 移动 ， 以 使 向 量 部 件 能 保持 
繁忙 。 如 果 成 功 ， 则 Cel 处 理 器 将 生成 邻 人 印象 深刻 的 吞吐 量 。 


向 量 处 理 器 。 第 一 台 成 功 的 并 行 计算 机 称 为 向 量 处 理 器 (vector processor), Cray 1 
是 一 个 著名 的 例子 。 向 量 处 理 器 是 对 快速 顺序 (RISC) 处 理 器 的 扩展 ， 它 的 向 量 寄 
存 器 容量 为 64 字 。 向 量 指令 能 够 从 存储 器 到/ 存 向 量 (647), 对 两 个 向 量 寄存 器 中 
的 相应 元 素 完 成 基本 的 整数 和 浮 点 算术 运算 以 及 完成 归 约 ( 即 组 合 一 个 寄存 器 中 的 
AR) 等 操作 。 虽 然 程 序 员 可 能 认为 向 量 操作 是 并 行 执行 的 ， 实际 上 向 量 操作 是 深 
度 流水 化 的 ， 从 而 可 获得 很 高 的 性 能 。 


2.2.4 机 群 


机 群 是 由 商品 部 件 构 成 的 并 行 计算 机 。 组 成 机 群 的 结 点 通常 是 一 些 板 ， 板 上 包含 一 个 或 
几 个 处 理 器 ， 一 个 RAM 存 储 器 ， 此 外 通常 还 有 磁盘 存储 器 。 各 结 点 由 商品 互连网 连接 ， 可 用 
的 互 连 形式 包括 千 兆 位 以 太 网 、Myrinet、Quadrics、Infiniband 以 及 光纤 通道 。 与 大 多 数 其 他 

高 端 计 算 形式 相 比 ， 由 于 机 群 使 用 商品 部 件 ， 因 此 机 群 有 很 大 的 性 价 比 优势 。 机 群 的 一 个 

主要 特性 是 存储 器 不 为 各 机 器 所 共享 ， 处 理 器 只 访问 自己 板 上 存储 器 ， 当 要 与 其 他 处 理 器 通 
信 时 ， 需 要 借助 消息 传递 机 制 。 

由 于 机 群 的 商品 特性 ， 在 World Wide Web 网 上 有 大 量 的 操作 指南 ， 指导 用 户 用 商品 部 件 
来 装配 自己 的 机 群 。 下 面 是 一 个 典型 的 装配 机 群 系统 的 配置 方案 ， 

“8 个 结 点 ， 每 个 有 8 路 Power4 处 理 器 ，32 GB RAM， 两 个 磁盘 

。 一 个 控制 处 理 器 

*Myrinet 16 口 交换 器 ，4 块 板 上 的 8 个 PCI 适 配器 

* 开源 软件 

操作 指南 既 说 明了 如 何 安装 硬件 ， 还 会 指导 用 户 如 何 安装 软件 。 

当然 ， 15 SALLIE WA Ream nie oa eee (blade server) 的 机 群 。 一 
个 刀片 是 一 块 含有 一 个 或 几 个 处 理 器 芯片 、RAM、 磁 盘 、 若干 个 通信 口 以 及 几 个 冷却 风扇。 
刀片 服务 器 性 能 的 变化 范围 很 大 ， 但 它们 都 可 作为 并 行 计算 机 进行 编程 。 例 如 ，HP 公 司 的 
Cluster Platform 6000 刀 片 ， 

“任意 (合理 ) 数目 的 刀片 ， 每 个 有 两 个 双核 的 Itanium 2, 1.6GHz 的 处 理 器 ，3MB cache 

。 每 个 刀片 有 16 GB RAM 

“每 个 刀片 有 两 个 磁盘 ， 光 纤 通 道 互 连 

* Myricon 公 司 Myrinet 2000 互 连 网 (3.2~3.6 us NIC 时 延 ) © 


2.2.5 超级 计算 机 
传统 上 超级 计算 机 由 国家 实验 室 和 大 公司 所 使 用 ， 具 有 许多 不 同 的 体系 结构 ， 包括 机 群 ， 


NIC 是 指 网 络 接口 世 片 。 一 译 者 注 
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因此 ， 很 难 一 般 性 地 介绍 其 设计 。 一 个 值得 关注 的 现代 设计 是 BlueGene/L ( 蓝 色 基因 ) 机 器 。 

BlueGene/L IBM 继 续 构 造 大 机 器 以 竞争 超级 计算 机 市 场 ， 最 近 的 一 个 产品 是 BlueGene 
体系 结构 。BlueGene/L 的 一 个 有 趣 特 征 是 它 的 处 理 器 以 770MHz 中 等 速度 运行 ， 这 比 以 2 ~ 
3GHz 速 度 运行 的 典型 PC 处 理 器 慢 了 许多 。 尽 管 如 此 ， 由 于 它 使 用 了 大 量 的 处 理 器 ， 使 得 
BlueGene/L 体 系 结构 的 一 个 实例 直接 跃 居 世界 最 快 超级 计算 机 Top500 排 行 榜 的 首位 。 

BlueGene/L 设 备 的 一 种 配置 如 下 :; 

“65536 个 双核 结 点 ， 每 个 结 点 是 一 个 440 PowerPC 处 理 器 (参见 图 2-7) 

。 每 个 结 点 有 32 KB 的 L1 指令 cache 和 数据 cache 

* 每 个 结 点 有 一 个 Double Hummer 优 化 浮 点 部 件 , 该 部 件 由 两 个 对 偶 的 标准 浮 点 部 件 组 成 ， 

每 个 周期 能 完成 4 个 操作 ， 即 2.8GFLOPS 

* 每 个 结 点 有 一 个 4 MB 顺序 一 致 性 共享 片 内 L3 cache 和 512 MB 的 片 外 共享 RAM 

。 每 个 结 点 有 6 个 双向 口 连接 到 3 维 环绕 互连网 

* 每 个 结 点 有 3 个 双向 口 连接 到 一 个 集合 网 

。 每 个 结 点 有 4 个 口 连接 到 一 个 障 栅 / 中 断 网 
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图 2-7 BlueGene/L 结 点 的 逻辑 组 成 


处 理 器 虽然 以 中 等 时 钟 速率 运行 ， 但 它 具 有 所 有 通常 高 性 能 处 理 器 的 特征 ， 包 括 指令 双 
发 动 、 乱 序 执行 、 大 多 数 指令 (包括 乘法 ) 在 单 周 期 内 完成 。 因 此 标 称 的 处 理 器 速率 为 1.4G 
操作 / 秒 。 

结 点 排列 成 三 维 环绕 网 (torus network)， 它 是 带 有 环绕 边 的 网 格 (参见 图 2-8a)。 每 个 结 
点 与 它 最 近 的 6 个 相 邻 结 点 相连 ， 而 整个 BlueGene/L 扩 展 成 64 x 32 x 32 的 3 维 阵列 。 环 绕 网 中 不 
直接 相连 的 结 点 之 间 的 通信 和 需 通过 网 络 中 的 路 由 完成 。 例 如 ， 当 图 2-8 中 的 右前 上 方 结 点 需要 
驻 留 在 左 后 下 方 结 点 中 的 数据 时 ， 就 需要 路 由 该 数据 。 也 许 ， 先 是 沿 水 平方 向 ， 再 沿 垂直 方向 ， 
最 后 由 后 向 前 。 由 于 路 由 器 使 用 直通 (cut through) 路 由 技术 ， 数 据 不 需要 在 每 一 个 结 点 处 停 
留 。 最 坏 的 组 合 网 络 时 延 (在 每 一 维 上 传输 一 半路 程 ) 需 经 过 32+16+16 跳 ， 需 时 6.4us。 

集合 网 络 (collective network) 是 第 2 个 连接 结 点 的 独立 网 络 。 该 网 络 芯片 已 被 扩展 成 具 
有 算术 运算 能 力 ， 所 以 通过 网 络 的 数据 流 可 以 被 组 合 形成 全 局 和 (在 第 1 章 中 已 经 说 明 )。 在 
并 行 计算 中 ， 这 种 全 局 操作 是 很 普遍 的 。BlueGene/L 支 持 SUM (总 和 )、MIN ($h). MAX 
(最 大 )， 以 及 按 位 OR (或 )，AND (与 ) 和 XOR (RR) 的 结 点 操作 。 同 样 重要 的 是 ， 集 合 
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网 络 还 支持 广播 ， 简 化 了 一 对 多 的 通信 。 采 用 这 种 硬件 的 优点 很 显著 : 一 个 全 局 的 浮 点 加 ， 
只 需要 两 次 通过 网 络 ， 一 次 是 寻找 最 大 指数 ， 而 另 一 次 是 对 尾数 求 和 ， 总 共 约 需 10ns， 这 只 
比 访问 一 个 任意 浮 点 值 的 最 坏 通信 时 间 稍 大 一 些 。 





b) 


图 2-8 BlueGene/L 通 信 网 络 : a) 3 维 环绕 网 ， 用 于 标准 的 处 理 器 间 的 数据 传输 ，b) 集合 网 络 ， 用 于 归 约 
的 快速 求 值 

最 后 ， 障 机 网 络 (barrier network) 提供 了 第 3 种 类 型 的 全 局 通信 。 从 概念 上 讲 ， 障 栅 网 
络 是 连接 所 有 结 点 的 公共 线 ， 它 能 用 作 中 断 、 障 栅 同步 以 及 其 他 简单 的 全 局 通信 ， 当 然 ， 其 
实现 完全 不 同 。 该 网 络 的 来 回 时 延 是 1.5us。 

当 程 序 员 编写 他 们 的 代码 时 ， 他 们 要 访问 两 个 核 所 共享 的 5312 MB RAM。 由 于 没有 其 他 的 共 
享 存储 器 ， 一 个 大 型 的 并 行 计算 问题 状态 将 在 处 理 器 的 RAM 间 被 分 割 。 处 理 器 通过 环绕 网 来 回 
发 送 消息 进行 通信 。 为 了 简化 程序 设计 ， 存 储 器 的 结构 允许 一 个 处 理 器 专门 处 理 通信 ， 而 另 一 
个 处 理 器 则 专门 用 于 计算 。 当 然 ， 广 播 是 由 集合 网 络 来 完成 的 ， 而 同步 则 使 用 障 栅 网 络 来 完成 。 

Top500 超 级 计算 机 排行 榜 ~«TopS00ak +4 (wwwiop500.org) 是 由 遇 哈 姆 大 学 、 田 纳西 - 诺 克 

斯 维尔 大 学 以 及 NSERC/LBNL 共 同 维护 的 。 计 算 机 按 测 试 LINPACK 基 准 测试 程序 所 得 到 的 

性 能 进行 排名 ，LINPACK 是 一 组 并 行 线性 代数 例 程 。 纵 然 这 种 测试 是 偏向 于 科学 计算 ， 但 

已 有 一 些 明 显 的 趋向 表明 高 端 并 行 计算 的 多 样 化 。 每 年 ， 有 更 多 的 商业 部 门 参与 排名 ， 这 

些 机 器 由 运行 更 大 范围 应 用 的 更 多 公司 所 使 用 。 例 如 ， 在 描述 这 些 计算 机 所 运行 的 应 用 的 

表 中 ， 在 2007 年 11 月 报表 中 报告 最 多 的 领域 是 : 金融 (72 项 )、 地 球 物理 学 (43 项 )、 研 究 

(38 项 )、 服 务 中 心 (28 项 ) 和 半导体 (25 项 )。 另 一 个 值得 注意 的 趋势 是 ， 机 群 日 益 普 及 ， 

现在 在 表 中 占 了 406 项 。 而 在 1993 年 的 第 一 次 排行 榜 中 ， 用 户 定制 的 超级 计算 机 则 独居 歼 头 。 
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如 我 们 在 本 章 稍 后 将 要 讨论 的 ， 计 算 机 体系 结构 一 个 重要 性 能 因数 是 通信 时 延 4， 它 是 指 
一 个 处 理 器 与 任何 指定 的 存储 器 字 节 之 间 的 通信 时 间 。 用 这 段 时 间 内 可 执行 的 操作 数 加 以 衡 
量 。 对 于 BlueGene/L， 即 是 每 秒 1.4 G 次 操作 乘 以 6.4us 网 络 时 延 ， 因 而 其 人 = 8960 (不 包括 软 
件 开 销 ) 。 


2.2.6 对 6 种 并 行 计算 机 的 评论 


这 6 种 机 器 有 多 少 相 似 之 处 ? 有 多 少 不 同 之 处 ? 一 个 差别 是 存储 器 模型 。Core Duo, Dual 
Core 以 及 Sun Fire E25K 实 现 的 是 一 个 共享 地 址 空间 ， 是 所 有 处 理 器 可 访问 的 一 致 性 存储 器 ; 
HP 机 群 和 BlueGene/L 实 现 的 是 一 个 分 布 式 地 址 空间 ， 每 个 处 理 器 只 能 访问 整个 存储 器 的 一 部 
分 。(Cell 代 表 一 个 附属 处 理 器 模型 ， 其 中 ， 主 处 理 器 可 对 所 有 存储 器 进行 全 局 访问 ， 并 为 各 
个 SPE 建 立 数据 流 ， 在 第 10 章 中 将 对 它 作 进一步 的 论述 。) 在 分 布 式 地 址 中 ， 不 共享 存储 器 的 
各 个 处 理 器 通过 消息 传递 进行 相互 之 间 的 通信 。 实 现 分 布 式 地 址 空间 的 并 行 计算 机 通常 被 称 
为 是 分 布 式 存储 器 机 器 。 

共享 存储 器 机 器 对 程序 而 言 似 乎 更 为 方便 和 自然 ， 在 随 之 而 来 的 问题 是 , “为 什么 要 构造 
这 些 不 同类 型 的 机 器 ? 为 什么 不 构建 有 较 低 存储 器 时 延 和 大 量 处 理 器 的 共享 存储 器 机 器 ? ” 
大 量 机 器 不 采用 共享 存储 器 有 其 深层 次 的 基本 原因 。 其 中 一 个 原因 是 ， 随 着 机 器 规模 的 增 大 ， 
光速 延迟 也 将 增加 。 但 真正 的 挑战 ， 与 其 说 是 传送 信息 的 时 间 ， 不 如 说 是 既 保持 存储 器 一 致 
性 又 不 显著 增加 存储 器 的 有 效 访问 时 间 。 有 关 的 技术 挑战 已 超出 本 书 的 范畴 ， 但 至 少 通过 观 
察 Sun Fire E25K 和 那些 多 核 世 片 的 体系 结构 的 巨大 差异 可 以 感觉 到 ，Sun 公 司 的 工程 师 不 得 
不 组 合 许多 复杂 的 思想 ， 并 采用 激进 的 工程 技术 ， 将 处 理 器 数 提升 到 72 个 。 每 一 次 的 增加 都 
带 来 更 大 的 挑战 。 所 以 ， 创 建 一 个 可 扩展 的 共享 存储 器 体系 结构 的 前 景 是 极其 池 茫 的 ， 因 此 ， 
并 行 体系 结构 的 多 样 性 在 可 预见 的 未 来 将 是 一 个 不 争 的 事实 。 

弗 林 分 类 法 ”1966 年 Michael J.Flynn ( 弗 林 ) 提出 ， 计 算 机 体系 结构 可 以 根据 它们 所 

使 用 的 指令 流 数 和 数据 流 数 进 行 分 类 。 


单 指令 多 指令 
单数 据 SISD MISD 
多 数据 SIMD MIMD 


-SISD 对 应 于 我 们 通常 的 顺序 计算 机 ，MISD 是 指 为 了 增加 可 靠 性 的 多 个 宛 余 计 算 。 

SIMD 表 示 一 条 指令 作用 到 多 个 数据 值 上 ， 如 Cell 的 SPE; 而 MIMD 描 述 不 同 指令 作用 

到 多 个 值 上 ， 当 今 的 大 多 数 并 行 计算 机 都 是 其 典型 代表 。 经 常 使 用 的 只 有 SIMD 和 

MIMD 这 两 项 。 

因为 我 们 的 目标 是 性 能 可 移植 性 ， 我 们 要 间 “ 如 何 编写 程序 使 它 能 在 如 此 不 同 的 机 器 上 
很 好 地 运行 ? ”答案 是 抽象 掉 不 重要 的 细节 。 这 是 一 个 屡试不爽 和 熟悉 的 方法 。 


2.3 顺序 计算 机 的 抽象 


既然 并 行 机 器 存在 差异 性 而 且 不 希望 为 每 种 类 型 机 器 编写 不 同 的 程序 ， 其 关键 的 一 点 就 
是 需要 有 一 个 能 指导 程序 开发 的 精确 并 行 计 算 机 模型 。 与 之 对 照 ， 可 以 注意 到 顺序 计算 由 于 
有 这 样 的 一 个 模型 因而 长 期 受益 ; 该 模型 便 是 随机 访问 机 (RAM) 模型 ， 也 称 为 汉 “' 诺 依 曼 
模型 ， 因 为 作为 计算 机 先驱 者 他 第 一 个 描述 了 这 个 模型 。(RAM 是 随机 访问 存储 器 和 随机 访 
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问 机 两 者 的 缩写 ;在 本 书 中 我 们 广泛 地 对 它们 进行 了 论述 ， 为 避免 混淆 ， 我 们 始终 将 后 者 作 
为 RAM 模 型 。) 

RAM 模 型 将 一 人 台 顺 序 计 算 机 抽象 成 一 个 有 指令 执行 部 件 和 一 个 有 无 限 容量 的 存储 器 的 装 
E (按照 定义 ， 计 算 机 还 需要 其 他 部 件 ， 如 输入 和 输出 ，RAM 模 型 将 忽略 这 些 部 件 ) 。 存 储 
器 存储 程序 指令 和 数据 ， 且 任何 存储 单元 能 在 “单位 ”时 间 内 被 访问 GRRE), ， 而 不 论 该 单 
元 位 于 何 处 。 单 位 时 间 访 问 是 随机 访问 的 特征 ,这 也 是 取 名 RAM 模 型 的 原因 。 在 RAM 模 型 中 ， 
指令 执行 部 件 每 个 周期 取出 和 执行 一 条 指令 ， 除 非 遇 到 一 条 转移 指令 ， 它 将 在 下 一 个 周期 按 
序 取 下 一 条 指令 。 在 一 对 数据 值 上 操作 的 指令 都 是 很 简单 的 。 这 一 行为 模拟 了 我 们 所 熟悉 的 
顺序 计算 机 。 事 实 上 ， 该 模型 对 我 们 是 如 此 的 熟悉 ， 因 此 我 们 很 少 再 去 考虑 ， 而 且 ， 我 们 
发 现 很 难 再 去 考虑 任何 其 他 计算 方法 。 

在 用 类 似 想法 模拟 并 行 的 情况 之 前 ， 让 我 们 首先 回顾 顺序 程序 设计 如 何 从 RAM 模 型 获 益 的 。 


2.3.1 应 用 RAM 模 型 


RAM 模 型 的 简洁 性 非常 重要 ， 因 为 它 允 许 程序 员 根 据 模 型 中 的 指令 数 来 估计 整个 性 能 。 
例如 ， 如 果 我 们 要 在 已 排序 数组 A 中 查找 一 项 (searchee)， 可 以 使 用 顺序 查找 或 二 分 查找 
(参见 图 2-9) 。 给 定 RAM 模 型 ， 我 们 知道 顺序 查找 将 平均 需要 对 for 人 循环 进行 /2 次 交代 ， 才 能 
查找 到 该 项 ， 此 外 我 们 知道 每 次 选 代 通常 将 需要 执行 少 于 12 条 的 机 器 指令 。 二 分 查找 是 一 个 
稍为 复杂 的 算法 ， 但 它 的 期 望 性 能 大 约 是 while 循 环 的 logzm 次 选 代 ， 而 每 次 while 循 环 将 需要 执 
行 少 于 24 条 的 机 器 指令 。 对 于 小 的 z 值 ， 顺 序 查找 较 快 ， 而 对 于 大 的 z 值 ， 则 二 分 查找 更 有 效 。 





a) 1 location=-1; b) 1 location=-1; 
2 for(j=0; j<n; j++) 2 hi=n-1; 
3 3 1o=0; 
4 if (A[j]==searchee) 4 while(lo!=hi) 
5 { 5 4 
6 location=j; 6 mid=lo+tfloor((hi-lo+1)/2); 
7 break; 7 if(A[mid]==searchee) 
8 } 8 break; 
9 } 9 if (A{mid}>searchee) 
10 hi=mid; 
11 else 
12 lo=mid+1; 








13 } 


图 2-9 两 种 查找 计算 : a) 线性 查找 ，b) 二 分 查找 


2.3.2 评估 RAM 模 型 


在 实际 的 硬件 中 实现 RAM 模 型 非常 重要 : 该 模型 描述 一 个 程序 是 如 何 运行 的 ， 要 使 模型 
有 用 ， 则 硬件 必须 如 描述 的 那样 运行 。 如 果 不 能 做 到 这 一 点 ， 那 么 就 需要 一 个 新 的 模型 。 模 
型 和 结果 之 间 如 果 不 吻合 ， 则 必须 重新 评估 我 们 的 算法 及 相应 的 程序 。 的 确 ， 这 个 惟一 长 期 
生存 的 模型 已 使 得 算法 设计 多 年 来 不 断 向 前 发 展 而 无 须 考虑 每 种 独特 计算 机 的 繁杂 细节 。 考 
虑 到 硬件 35 年 来 的 指数 性 能 改善 ， 以 及 35 年 来 的 硬件 复杂 性 的 增加 ， 无 疑 这 是 巨大 的 成 就 。 

当然 ，RAM 模 型 是 不 现实 的 。 例 如 ， 对 当今 的 处 理 器 来 讲 ， 取 数 的 单 周 期 代价 无 疑 是 一 


O 虽然 现在 的 计算 机 似乎 仍 符合 上 述 描述 ， 但 已 在 许多 方面 与 理想 化 的 机 器 有 所 不 同 。 
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个 神话 ， 就 如 同 幻想 存储 器 容量 是 无 限 的 一 样 ， 然 而 RAM 模 型 对 于 大 多 数 的 应 用 仍 有 效 ， 抽 
象 的 代价 抓 住 了 那些 顺序 计算 机 最 重要 的 性 质 。 针 对 机 器 细节 对 算法 进行 定制 实现 能 显著 地 
改进 算法 性 能 时 ，RAM 就 获得 了 成 功 ， 因 为 它 有 效 地 指导 了 通用 情况 下 的 算法 设计 。 

当然 ， 模 型 不 会 适用 于 所 有 硬件 ， 特 别 是 向 量 处 理 器 ， 由 于 它 能 在 单 周 期 中 取出 很 长 的 
数据 向 量 ， 因 而 它 不 适用 于 RAM 模 型 ， 所 以 应 该 记得 用 RAM 模 型 编写 的 传统 程序 在 向 量 机 上 
无 法 获得 成 功 。 因 此 直到 程序 员 学 会 开发 一 个 新 的 程序 设计 向 量 模 型 后 ， 诸 如 Cray 1 的 向 量 
处 理 器 才 会 充分 发 挥 了 它 的 全 部 法力。 


2.4 PRAM. 一 种 并 行 计算 机 模型 


要 将 顺序 程序 设计 的 成 功 经 验 转换 到 并 行情 况 ， 需 要 一 个 理想 的 并 行 计算 机 与 RAM 模 型 
相对 应 。 类 似 于 RAM 模 型 ， 访 理想 计算 机 应 尽 可 能 小 而 且 通 用 。 显 而 易 见 的 RAM 模 型 扩展 是 
PRAM， 即 并 行 随机 访问 机 器 模型 。 纵 然 不 是 很 明显 ， 这 样 的 结论 并 不 一 定 成 立 ， 我 们 很 快 
就 会 看 到 这 一 点 。 

PRAM 由 连接 到 一 个 有 无 限 容量 共享 存储 器 (包含 程序 和 数据 ) 的 不 指明 数目 的 指令 执 
行 部 件 (与 RAM 模 型 中 类 似 ) 组 成 。 每 个 指令 执行 部 件 能 按 它们 自己 的 程序 线程 进行 执行 ， 
为 方便 同步 ， 它 们 以 锁 步 方式 执行 指令 。 所 有 的 执行 部 件 访问 金 局 存储 器 ， 且 它们 所 看 到 的 
是 一 个 单一 的 存储 器 状态 的 变化 序列 ， 称 为 单一 存储 器 映像 (single memory image) 。 也 就 
是 说 ， 如 果 在 一 条 指令 改变 x[0] 的 同时 另 一 条 指令 改变 x[1]， 执 行 下 一 条 指令 时 ， 这 两 个 单 
元 的 值 均 已 更 新 。 与 RAM 模 型 相似 ，PRAM 模 型 中 的 存储 器 的 访问 也 是 以 “单位 时 间 ” 完 成 
的 。 这 样 ， 当 多 条 指令 同时 要 访问 同一 存储 单元 时 ，PRAM 模 型 就 会 出 现 一 种 复杂 情况 。 对 
于 读 操作 ， 通 常 允 许 同 时 访问 。 但 对 于 写 操作 ， 企 图 用 不 同 的 值 写 同一 个 存储 单元 将 存 有 问 
题 ， 不 同 版 本 的 PRAM 模 型 指定 不 同 的 协议 。 协 议 的 范围 很 广 ， 从 完全 禁止 同时 写 ， 到 人 允许 
同时 写 ,， 但 “对 同一 存储 单元 的 同时 写 必须 全 都 写 相 同 值 "*， 再 到 “允许 对 同一 存储 单元 进 
行 不 同 的 写 , 但 只 有 其 中 一 个 写 (任意 选择 ) 是 成 功 的 。” 对 这 些 不 同 的 协议 ， 有 许多 文献 
进行 了 论述 。 

不 同 于 RAM 模 型 ， 对 于 程序 员 来 讲 PRAM 不 是 一 个 好 的 工作 模型 。 它 的 失败 在 于 对 存储 
器 行为 的 不 实 描述 ， 这 一 点 是 很 奇怪 的 ， 因 为 简化 的 存储 器 行为 是 RAM 模 型 的 优点 。PRAM 
的 问题 在 于 ， 对 于 可 扩展 的 机 器 ， 要 在 单位 时 间 内 实现 单一 存储 器 映像 实际 上 是 不 可 能 锯 
即 是 说 ， 要 求 所 有 指令 执行 部 件 都 “ 见 到 ”一 个 一 致 性 的 存储 器 映像 ， 并 能 以 指令 执行 的 单 
位 时 间 速 率 去 访问 存储 器 ， 仅 当 执行 部 件 比较 小 的 时 候 才 有 可 能 。 前 面 所 讨论 的 多 核 和 SMP 
体系 结构 可 以 作 到 这 一 点 。 但 当 执 行 部 件 增加 时 ， 为 了 保持 存储 器 映像 一 致 的 延迟 就 会 大 大 
增加 。 因 此 ，PRAM 模 型 的 预测 在 实际 中 是 无 法 观察 到 的 。 

模型 预测 与 实际 不 符 可 能 会 导致 严重 的 后 果 ， 它 很 可 能 使 算法 设计 者 误 入 歧途 ， 因 为 在 
实际 硬件 上 被 认可 的 那些 算法 将 无 法 完成 ， 此 外 模型 所 预测 的 其 他 算法 也 将 是 很 差 的 。 问 题 
出 在 所 有 存储 器 的 访问 只 需 使 用 单位 时 间 ，PRAM 完 全 忽略 了 并 行 计算 机 中 一 个 重要 的 性 能 
因素 ， 即 通信 开销 。 由 于 这 一 难题 ， 我 们 采用 了 一 个 更 为 实际 的 并 行 计算 机 模型 。 


2.5 CTA: 一 种 实际 的 并 行 计 算 机 模型 
为 了 克服 PRAM 的 缺点 ， 我 们 需要 一 个 考虑 通信 开销 的 模型 。 下 面 我 们 描述 一 个 模型 ， 
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由 于 历史 的 原因 ， 该 模型 被 称 为 候选 型 体系 结构 (Candidate Type Architecture) ， 简 称 CTA。 

CTA 模 型 能 显 式 地 区 分 两 类 存储 器 访问 ， 分 别 被 称 为 低廉 的 本 地 访问 和 昂贵 的 非 本 地 访问 。 
PRAM 的 问题 ”在 对 并 行 算法 的 性 能 极限 进行 理论 分 析 时 ，PRAM 是 一 个 颇 为 有 用 的 
模型 ， 但 是 它 的 存储 器 访问 时 间 的 单位 代价 却 无 助 于 实际 的 并 行程 序 设 计 。 特 别 是 ， 
该 模型 本 应 理想 地 指导 程序 员 为 求解 问题 选择 最 好 的 算法 ， 可 实际 上 会 误导 他 们 到 
一 个 错误 的 解 。 例 如 ， 对 于 寻找 一 个 数组 中 最 大 值 元 素 的 问题 ， 最 好 的 实际 算法 是 
锦标 赛 算法 ， 它 是 第 1 章 中 所 讨论 的 成 对 求 和 算法 的 变异 ; 当 n = P 处 理 器 时 ， 其 性 能 
应 正比 于 log 1。 寻 找 最 大 值 元 素 最 好 的 PRAM 算 法 是 具有 独创 性 的 称 为 Valiant 算 法 。 
该 算法 的 工作 步骤 如 下 ; 第 1 步 将 个 值 按 3 个 分 组 ， 并 分 配 处 理 器 进行 所 有 可 能 的 比 
较 ， 在 一 步 时 间 内 找 出 每 一 组 的 最 大 值 。 由 于 在 一 个 3 元 束 组 {a, b, c} 中 找 出 最 大 值 
需要 a:b, a:c,b:c 共 3 次 比较 , 因此 P/3 组 将 需要 3*P/3 个 处 理 器 ， 即 正好 P 个 处 理 器 ,这 
一 步 将 问题 的 规模 减 小 为 原来 的 113。 以 后 的 几 步 ， 组 将 会 更 大 (第 2 步 按 7 个 分 组 ) ， 
但 组 数 会 更 少 ， 使 得 所 有 的 比较 用 已 个 处 理 器 就 可 完成 。 整 个 求解 将 在 log log 7 步 内 
完成 。 由 于 完成 每 一 步 所 需 的 指令 数 是 国定 的 ,因此 整个 运行 时 间 将 正比 于 log log n, 
虽然 该 算法 非常 巧妙 ， 但 它 并 不 实用 ， 因 为 在 实际 的 硬件 上 运行 时 ， 它 无 法 达到 所 
预测 的 运行 时 间 OR 因 在 于 PRAM 模 型 假设 可 以 在 单位 时 间 内 完成 存储 器 的 访问 )。 
的 确 ， 如 果 我 们 乐观 地 估计 一 次 通信 的 代价 正比 于 log P (P 为 并 行 计算 机 中 的 处 理 器 
数 ) ， 那 么 完成 一 步 所 需 时 间 将 正比 于 log P, 这 就 意味 着 该 PRAM 算 法 将 需 时 log n 
(log logn), 4n= P 时 ， 它 的 性 能 将 比 锦标 赛 算法 更 差 。 由 此 我 们 可 以 看 到 ，PRAM 
模型 并 不 能 指导 程序 员 去 获得 最 好 的 实际 解 。 


2.5.1 CTA 模 型 


图 2-10 中 显示 了 CTA 并 行 计算 机 模型 的 示意 图 。 它 由 P 个 标准 的 顺序 计算 机 ( 称 为 处 理 器 
或 处 理 单元 ) 所 组 成 ,这 些 处 理 器 由 一 个 互连网 络 (又 称 通信 网 络 ) 相连 接 。RAM 模 型 所 描 
述 的 处 理 器 则 由 一 个 执行 引擎 和 一 个 随机 访问 存储 器 组 成 ， 在 存储 器 中 存放 有 程序 和 数据 。 
第 P+1 个 处 理 器 (以 虚线 表示 ) 是 控制 器 ， 它 的 功能 是 帮助 完成 如 初始 化 、 同 步 和 eurekae 
(找到 ) 等 操作 9。 许 多 并 行 计算 机 并 没有 这 样 单独 的 一 个 控制 器 ， 在 这 种 场合 处 理 器 Po 将 完 
成 上 述 的 那些 操作 。 

CTA 互 连 网络 的 拓扑 没有 说 明 。 图 2-11 中 显示 了 几 种 互连网 络 常用 的 拓扑， 适合 于 并 行 计 
算 机 的 最 佳 拓 扑 是 需 由 体系 结构 师 根 据 各 种 技术 考虑 作出 的 设计 决策 ， 程序 员 对 拓扑 并 不 感 
兴趣 ， 因 此 在 CTA 中 未 显示 其 细节 。 

网 络 接口 芯片 (Network Interface Chip, NIC) 是 处 理 器 /网 络 连接 的 媒介 (参见 图 2-11b) 
图 2-10a 中 的 框图 显示 处 理 器 用 4 根 线 与 网 络 相连 ， 这 便 是 结 点 度 (node degree) ， 但 是 实际 的 
连接 数 取决 于 拓扑 的 特性 和 网 络 接口 的 设计 ， 最 少 只 有 一 个 (双向 ) 连接 ， 而 最 多 则 不 会 超 
过 6 个 。 来 往 于 网 络 上 的 数据 存放 在 存储 器 中 ， 通常 借助 直接 存储 器 访问 (DMA) 机 制 进行 











O eureka 是 一 个 处 理 器 对 其 他 处 理 器 的 中 断 ， 使 用 在 如 搜索 那样 的 操作 中 。 
© 希腊 语 eureka 原 意 为 “我 找到 了 ”， 在 计算 机 中 eureka 用 来 表示 一 种 控制 同步 ， 例 如 在 并 行 搜索 中 ， 当 有 一 
个 分 支 找 到 搜索 目标 时 ， 就 立即 发 出 eureka 同 步 信和 号， 以 终止 其 他 分 支 的 继续 搜索 ， 一 一 译 者 注 


























图 2-10 CTA 并 行 计 算 机 模型 : a) CTA 由 互连网 络 连接 的 P 个 顺序 计算 机 所 组 成 ， 以 虚线 标志 的 计算 机 是 
控制 器 ， 完 成 诸如 启动 处 理 等 事务 性 功能 。b) 处 理 单元 的 细节 。 更 详细 的 介绍 见 正文 
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图 2-11 互连网 络 常用 的 拓扑 :a) 二 维 环绕 网 ，b) 二 元 3 立方 体 (参见 习题 8)，c) 胖 树 d) OM 
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d) 
图 2-11 (2%) 

虽然 处 理 器 间 能 进行 同步 和 在 遇 到 障 栅 时 集合 停顿 ， 通常 它们 是 独立 执行 的 ， 运 行 它们 
自己 的 本 地 程序 。 如 果 在 每 个 处 理 器 中 的 程序 是 相同 的 ， 则 这 种 计算 就 常 称 为 单程 序 多 数据 
(Single Program Multiple Data, SPMD) 计算 (请 回忆 厚 林 分 类 )， 尽管 SPMD 指 的 是 软件 ， 
而 弗 林 的 术语 指 的 是 硬件 。 该 名 称 的 使 用 有 一 定局 限 ， 因为 即使 代码 在 所 有 处 理 器 中 都 相同 ， 
但 事实 上 可 能 执行 相同 代码 的 不 同 部 分 (它们 有 一 个 代码 的 副本 以 及 自 己 的 程序 计数 器 )， 因 
而 它们 是 完全 自治 的 。 

处 理 器 可 以 对 自己 的 本 地 存储 器 ( 受 cache 支 持 ) 进行 数据 访问 ， 其 过 程 与 标准 顺序 计算 
机 的 相 类 似 。 此 外 ， 处 理 器 可 以 访问 非 本 地 存储 器 ， 即 其 他 处 理 器 单元 的 存储 器 。(CTA 模 型 
没有 全 局 存储 器 )。 有 三 种 广泛 使 用 的 机 制 可 用 于 访问 非 本 地 存储 器 ; 共享 存储 器 、 单 边 通信 
(我 们 将 其 简写 为 1-sided) 以 及 消息 传递 。 我 们 将 在 下 面 存储 器 访问 机 制 这 一 节 中 对 这 三 种 机 
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制 进行 描述 ， 这 三 种 通信 机 制 将 对 程序 员 和 硬件 赋予 不 同 的 负担 ， 但 就 CTA 机 器 模型 观点 而 
言 ， 它 们 是 可 以 互 换 的 。 

最 后 ， 应 注意 ， 在 本 章 开始 时 所 讨论 的 那些 计算 机 都 是 CTA 的 实例 。BlueGene/L 有 65536 
个 带 有 本 地 存储 器 的 处 理 器 单元 ( 双 处 理 器 ) ， 一 个 3 维 环绕 互连网 (与 网 络 有 6 个 连接 ) 以 及 
一 个 硬件 控制 器 〈 障 栅 / 互 连 线路 ) 。 另 一 个 极端 ，AMD 的 Dual Core 有 2 个 处 理 器 ， 一 个 直接 
连接 〈 或 交叉 开关 ， 取 决 于 系统 如 何 逻 辑 划分 从 而 与 CTA 挂 钧 )， 没 有 控制 器 。 其 他 的 并 行 计 
算 机 可 类 似 地 与 CTA 挂 钩 。 


2.5.2 通信 时 延 


并 行 计算 机 的 一 个 关键 点 是 对 本 地 和 非 本 地 的 访问 需要 用 不 同 的 时 间 来 完成 。 对 存储 器 
访问 所 需 的 延迟 称 为 存储 器 时 廷 (latency)。 存 储 器 时 延 不 能 用 秒 来 表示 ， 因 为 模型 是 对 许多 
不 同体 系 结构 的 概括 ， 而 每 种 体系 结构 采用 不 同 的 技术 和 不 同 的 设计 单元 。 所 以 时 延 是 用 相 
对 于 处 理 器 本 地 存储 器 的 时 延 来 加 以 说 明 的 。 这 一 约定 隐 含 着 本 地 存储 器 时 延 大 致 遵循 处 理 
器 的 速率 ， 而 我 们 乐观 地 假设 本 地 存储 器 将 以 每 指令 一 个 字 的 速率 进行 访问 。 当 然 ， 本 地 存 
储 器 的 访问 还 受 cache 行 为 、 处 理 器 及 算法 设计 很 多 方面 的 影响 ， 这 就 使 本 地 存储 器 的 访问 充 
满 了 变数 。 好 在 我 们 并 不 需要 有 关 时 延 的 精确 值 。 

在 CTA 模 型 中 ， 非 本 地 的 存储 器 时 延 是 用 希腊 字母 2 表示 的 。 非 本 地 存储 器 访问 的 代价 是 
很 昂贵 的 ， 它 的 4 值 比 本 地 存储 器 访问 的 2 值 要 高 出 2 ~ 5 个 数量 级 。 类 似 本 地 存储 器 访问 ， 非 
本 地 访问 的 代价 受 许多 因素 的 影响 ， 包 括 技 术 、 通 信 协 议 、 拓 扑 、 结 点 度 、 网 络 堵塞 以 及 通 
信 处 理 器 间 的 距离 等 。 但 是 由 于 因数 太 多 ， 精 确 地 知晓 它们 是 不 必要 的 。 

为 方便 说 明 起 见 ， 表 2-1 给 出 了 本 章 前 面 所 介绍 过 的 每 种 机 器 类 型 的 估计 24 值 。 

最 后 ， 类 似 于 RAM 模 型 ，CTA 模 型 忽略 外 部 的 WO。 显然 ，I/O 对 性 能 至 关 重 要 ， 但 是 估 
计 有 关 VO 的 代价 比 起 估计 基本 体系 结构 的 通信 代价 更 加 困难 。 


表 2-1 常用 体系 结构 的 4 值 估计 ， 速 度 通 常 不 包括 拥塞 或 其 他 通信 延迟 














体系 结构 系列 ‘ 计算 机 人 
芯片 多 处 理 器 2 AMD Opteron 100 
共享 存储 器 多 处 理 器 Sun Fire E25K 400 ~ 600 
协 处 理 器 Cell 不 详 
机 群 HP BL6000 w/GbE 4160 ~ 5120 
超级 计算 机 BlueGene/L 8960 


CMP 的 A 值 衡量 芯片 上 L1 数 据 cache 间 的 传送 。 


2.5.3 CTA 的 性 质 


以 下 是 有 关 抽 象 机 特性 的 总 结 : 

* 有 P 个 处 理 器 ， 它 们 是 执行 本 地 指令 的 标准 顺序 计算 机 

* 本 地 存储 器 访问 时 间 即 是 通常 顺序 处 理 器 的 存储 器 访问 时 间 

“ 非 本 地 存储 器 的 访问 时 间 A>>1， 可 能 比 本 地 存储 器 的 访问 时 间 高 出 2 ~ 5 个 数量 级 
“ 低 结 点 度 意味 着 一 个 处 理 器 不 能 同时 进行 多 个 网 络 的 传输 (通常 为 1 个 或 2 个 ) 

“ 一 个 全 局 的 控制 器 以 帮助 完成 如 初始 化 、 同 步 等 基本 操作 
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在 对 存储 器 访问 机 制 进行 更 深入 的 讨论 之 后 ， 我 们 将 对 CTA 模 型 作 进一步 的 观察 。 

就 并 行 计算 机 的 程序 设计 而 言 ， 可 将 上 述 CTA 模 型 的 这 些 特 性 封装 成 一 个 简单 的 规则 : 

本 地 性 规则 快速 程序 趋向 于 最 大 化 本 地 存储 器 的 访问 次 数 和 最 小 化 非 本 地 存储 器 的 访问 
次 数 。 

每 一 个 并 行程 序 员 在 思考 算法 的 设计 时 ， 必 须 牢记 这 一 最 重要 的 指导 原则 。 

应 用 本 地 性 规则 为 了 了 解 如 何 应 用 本 地 性 规则 ， 假 想 一 个 计算 ， 它 有 多 个 线程 运行 

在 多 个 处 理 路 上 ， 算 法 的 每 次 选 代 需 要 一 个 新 的 随机 数 r。 一 个 明显 的 解 是 ， 使 得 其 

中 一 个 处 理 器 存储 该 种 子 ， 并 在 每 个 周期 生成 r， 而 其 他 的 处 理 器 访问 该 随机 数值 。 

符合 本 地 性 原理 的 一 个 更 好 的 方法 是 每 个 处 理 器 将 种 子 存 储 在 本 地 ， 并 在 每 次 适 代 时 

宛 余 地 生成 7。 虽 然 第 2 个 求解 方案 需要 执行 更 多 的 指令 ， 但 它们 是 并 行 执行 的 ， 所 以 

它们 不 会 比 一 个 处 理 器 单独 生成 7 需要 更 多 的 执行 时 间 。 更 重要 的 是 ， 第 2 个 求解 方案 

避免 了 非 本 地 的 访问 ， 而 且 由 于 通常 计算 一 个 随机 数 比 完 成 一 次 非 本 地 存储 器 的 访问 

要 快 ， 从 而 就 加 快 了 整个 计算 。 

CTA 体 系 结构 提 及 P 个 处 理 器 ， 意 味 着 机 器 是 可 扩展 的 。 程 序 员 所 写 的 代码 独立 于 精确 的 
处 理 器 数 ， 一 般 确 切 的 处 理 器 数 将 在 运行 时 提供 。 确 实 ，4 会 随 P 的 增加 而 增加 ， 虽 然 不 会 增 
加 得 那么 快 ， 在 一 个 良好 工程 化 的 计算 机 中 ， 处 理 器 的 加 倍 不 会 加 倍 和 。 

概括 地 讲 ，CTA 是 一 个 通用 并 行 计 算 机 的 模型 ， 它 抽象 了 过 去 几 十 年 来 建造 的 所 有 可 扩 
fe (MIMD) 并 行 计 算 机 的 关键 特 人 性。 虽然 主题 有 所 变化 ， 但 CTA 所 展示 的 性 质 应 是 任何 并 
行 计算 机 所 期 盼 的 。 


2.6 存储 器 访问 机 制 


CTA 模 型 没有 说 明 存储 器 访问 机 制 是 共享 存储 器 、 单 边 通信 或 是 消息 传递 。 这 三 种 通信 
机 制 都 得 到 普遍 使 用 ， 下 面 我 们 对 它们 分 别 加 以 描述 。 


2.6.1 共享 存储 器 


共享 存储 器 机 制 是 对 顺序 计算 机 扁平 存储 器 的 自然 扩展 。 普 遍 认 为 共享 存储 器 比 其 他 机 
制 更 易 使 用 ， 但 它 也 被 批评 难于 编程 〈 易 产生 竞 态 条 件 以 及 难于 发 现 ) ， 此 外 ， 它 可 能 鼓励 低 
效 程序 的 产生 ， 因 为 进行 非 本 地 的 访问 过 于 容易 。 共 享 存储 器 为 多 线程 提供 了 一 个 单一 的 一 
致 存储 器 映像 ， 但 通常 它 需 要 某 种 程度 的 硬件 支持 方 能 很 好 实现 。 

在 方便 地 允许 任何 线程 访问 任何 存储 器 单元 的 同时 ， 导 致 了 两 个 或 多 个 线程 企图 同时 改 
变 同一 存储 单元 所 带 来 的 风险 。 这 种 竞 态 条 件 在 第 1 章 中 就 引起 了 我 们 的 注意 ， 不 过 那个 例子 
很 容易 解决 。 一 般 而 言 ， 竞 态 条 件 是 引入 难于 发 现 隐 错 的 巨大 隐患 ， 从 而 促使 程序 员 小 心 翼 
经 地 使 用 某 种 同步 机 制 来 保护 所 有 共享 存储 器 的 访问 。 在 第 6 章 中 将 会 介绍 更 多 的 有 关 信息 。 


2.6.2 单 边 通信 


单 边 通信 (一 边 通信 )， 在 Cray 机 上 称 为 shmem (共享 存储 器 )， 是 放宽 的 共享 存储 器 概 
D: 它 支持 单一 共享 地 址 空间 ， 即 所 有 线程 能 访问 所 有 的 存储 单元 ， 但 它 并 不 试图 保持 存储 
器 一 致 。 这 种 改变 简化 了 硬件 ， 因 为 它 不 再 需要 实现 复杂 的 cache 一 致 性 协议 ， 但 它 将 更 大 的 
负担 加 到 了 程序 员 身 上 ， 因 为 此 时 不 同 的 线程 可 能 对 同一 变量 观察 到 的 是 不 同 的 值 。 

对 于 单 边 通信 来 讲 ， 所 有 地 址 除了 那些 被 显 式 地 指定 为 私有 的 以 外 ， 将 能 为 所 有 处 理 器 
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所 访问 。 对 本 地 存储 器 的 访问 使 用 标准 的 取 / 存 (load/store) 机 制 ， 但 访问 非 本 地 存储 器 时 需 
用 get0 或 putOD。get(O 操 作 以 一 个 存储 单元 作为 参量 ， 并 从 非 本 地 处 理 器 的 存储 器 中 取 值 。 
putO 操 作 则 将 存储 单元 和 值 作为 两 个 参量 ， 将 该 值 存 放 到 非 本 地 的 存储 器 单元 中 。getO 和 
put(O 操 作 的 完成 无 须 通知 被 访 存 储 器 的 处 理 器 。 因 此 像 共 享 存储 器 一 样 ， 单 边 通信 需要 用 某 
种 同步 协议 来 保护 关键 的 程序 变量 ， 以 保证 处 理 器 不 会 误 用 陈旧 的 数据 。 

“ 单 边 ” 一 词 源 自 这 样 的 特性 ， 即 通信 操作 可 以 仅 由 传送 的 一 边 发 动 。 


2.6.3 消息 传递 


与 其 他 两 种 通信 机 制 相 比 ， 消 息 传递 机 制 是 最 初等 的 ， 而 且 对 硬件 支持 的 需要 也 是 最 少 
的 。 由 于 不 支持 共享 地 址 空间 ， 处 理 器 只 能 访问 本 地 存储 器 。 要 访问 非 本 地 数据 ， 必 须 使 用 
消息 ， 其 中 最 基本 操作 是 发 送 和 接收 操作 ， 通 常用 send0 和 recv0 表 示 。send() 操 作 传 输 一 个 消 
息 到 某 个 指定 的 处 理 器 。 该 消息 是 一 些 数据 ， 它 们 连续 存放 在 发 送 端的 存储 器 中 。recv0O) 操 作 
则 接收 来 自 某 个 其 他 处 理 器 的 消息 ， 并 指定 本 地 缓存 器 的 地 址 以 接受 该 消息 。 

因此 ， 消 息 传 递 是 一 个 双边 机 制 ， 表 示 源 和 目的 处 理 器 必须 以 合作 方式 传递 消息 。 因 为 
消息 传递 是 由 数据 值 的 拥有 者 发 动 的 ， 对 于 某 些 计算 范例 ， 就 可 能 需要 比较 麻烦 的 协议 。 例 
如 ， 一 个 处 理 器 不 能 简单 地 访问 一 个 远程 的 工作 队列 。 相 反 ， 它 必须 向 工作 队列 的 管理 者 请 
求 工 作 。 但 是 为 了 能 收 到 这 样 的 一 个 消息 ， 管 理 者 必须 期 待 此 请 求 ， 通 常 它 需 要 执行 一 个 查 
询 循 环 以 检查 是 否 有 任何 到 来 的 消息 。 

另 一 个 复杂 的 问题 是 程序 员 必 须 考虑 分 布 式 的 数据 结构 以 及 使 用 两 个 完全 不 同 的 移动 数 
据 的 机 制 ; 存储 器 访问 用 来 访问 本 地 存储 器 ， 而 消息 传递 用 来 访问 非 本 地 存储 器 。 而 在 另 一 
方面 ， 消 息 传递 程序 以 它们 代码 中 具有 明确 定义 的 部 分 相互 进行 交互 ， 因 此 被 认为 比 共享 存 
储 器 程序 更 易 排 错 。 这 一 点 也 适用 于 单 边 通信 ， 因 为 它 也 是 用 显 式 方法 识别 通信 操作 。 


2.6.4 存储 器 一 致 性 模型 


存储 器 一 致 性 概念 的 问题 已 经 提 上 议事 日 程 ， 因 为 大 多 数 现 代 的 微 处 理 器 利用 时 延 隐藏 
技术 来 改进 性 能 ， 但 这 种 技术 也 影响 了 并 行程 序 的 语义 。 存 储 器 一 致 性 模型 与 实现 共享 地 址 
空间 的 并 行 计算 机 有 关 ， 而 不 论 共享 地 址 空间 是 通过 共享 存储 器 实现 还 是 通过 单 边 通信 实现 。 

最 直观 的 模型 是 顺序 一 致 性 (sequential consistency)， 在 这 个 模型 中 ， 按 任何 执行 顺序 执 
行 的 结果 总 是 相同 的 ， 如 果 : (1) 所 有 处 理 器 的 操作 按 某 种 顺序 次 序 执行 ，(2) 每 个 处 理 器 
中 的 操作 按 其 程序 所 指明 的 次 序 进行 。 不 幸 的 是 ， 由 于 约束 了 如 缓冲 和 流水 那样 的 时 延 隐藏 
技术 的 使 用 ， 顺 序 一 致 性 限制 了 多 处 理 器 的 性 能 。 

与 顺序 一 致 性 相 比 ， 松 弛 一 致 性 (relaxed consistency) 模型 实现 的 是 一 种 弱 次 序 约束 。 
为 了 了 解 这 类 模型 的 动机 ， 请 回忆 在 过 去 的 年 代 里 ， 以 处 理 器 周期 衡量 的 存储 器 时 延 一 直 是 
在 稳定 地 增长 。( 从 根本 上 讲 ， 构 建 又 大 又 快 的 存储 器 是 很 困难 的 ， 所 以 存储 器 时 延 的 改进 无 
法 跟 上 CPU 时 钟 速度 的 改进 步伐 )。 为 了 减少 写 操作 的 时 延 ， 现 代 的 微 处 理 器 使 用 写 缕 冲 器 ， 
它 与 处 理 器 驻 留 在 同一 个 芯片 上 ， 当 处 理 器 发 出 一 个 写 命令 时 ， 数 据 就 存放 到 写 缓冲 器 ， 而 
处 理 器 则 继续 执行 而 无 须 等 待 数据 被 确切 地 写 人 主 存 。 此 时 ，DRAM 就 可 以 为 后 继 的 访问 其 
他 地 址 的 读 操 作 服 务 ， 而 不 必 等 待 被 缓 串 的 写 操作 的 完成 ， 这 样 就 减少 了 它们 的 时 延 ， 但 这 
违反 了 顺序 一 致 性 。 已 经 提出 了 各 种 松弛 一 致 性 模型 ， 都 是 企图 在 形式 化 存储 器 系统 的 行为 
的 同时 ， 允 许 硬件 能 自由 地 减少 存储 器 操作 的 时 延 。 不 幸 的 是 ， 许 多 不 同 松弛 一 致 性 模型 的 
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差异 非常 微妙 ， 且 它们 复杂 的 语义 使 得 并 行程 序 设计 相当 困难 。 
为 了 理解 松弛 一 致 性 的 困难 ， 考虑 有 关 两 个 处 理 器 之 间 互 斥 的 Dekker 经 典 算法 的 一 个 简 
化 版 本 ， 其 代码 为 如 下 ， 假 设 开始 时 flag1 和 flag2 均 为 0， 


处 理 器 1, 处 理 器 2， 

flagl = 1, flag2 = 1, 

if (flag2 = = 0) if (flagl = = 0) 
{ { 

/* 临 界 区 */ /* 临 界 区 */ 

} } 

flagl = 0, flag2 =0; 


在 顺序 一 致 性 模型 中 ，flag1 或 flag2 总 有 一 个 会 先 被 置 位 为 1， 而 所 有 的 后 继 读 将 认可 这 一 
事实 ， 所 以 我 们 能 保证 在 临界 区 内 部 在 任何 时 间 最 多 只 有 一 个 flag 为 0 (flag1 或 flag2) ， 这 样 
就 能 在 临界 区 内 保证 互 斥 的 实现 。 

在 松弛 一 致 性 模型 中 ， 处 理 器 1 可 能 将 flagl1 团 成 1， 而 该 值 可 能 仍 在 写 缓冲 器 中 ， 处 理 器 2 
可 能 读 fag1 但 得 到 的 却 是 上 的 值 (BNO) 。 这 就 破坏 了 只 有 一 个 flag 为 0 的 法 则 ， 以 至 于 无 法 保 
护 临 界 区 。 

为 支持 所 选择 的 顺序 一 致 性 ， 现代 的 微 处 理 器 实现 了 专门 的 原子 操作 ， 它 能 保证 不 使 用 
写 缓冲 器 。 例 如 ， 下 面 的 代码 使 用 一 条 test_and_swap 指 令 ， 它 能 自动 地 测试 一 个 存储 单元 的 
旧 值 ， 并 将 其 置 成 为 某 个 新 值 。 


/* lock = 0 时 临界 区 为 空 */ 
do 
{ 


old = test_and_swap (&lock,1) , 

} while (old != 0), 

/* 进入 临界 区 */ 

test and swap (&lock,0) , 

/* 退出 临界 区 : 清 锁 以 使 其 他 进程 能 够 进入 */ 

因为 test_and_swap 操 作 是 一 个 原子 操作 ， 且 不 使 用 写 缓冲 器 ， 因 此 只 有 一 个 处 理 器 能 将 
该 值 置 为 1， 而 同时 读 出 旧 值 0， 从 而 保证 了 对 临界 区 的 互 斥 。 不 像 Dekker 算 法 ， 上 面 的 代码 
在 多 于 两 个 处 理 器 的 情况 下 仍 能 工作 ， 

直到 如 今 ， 没有 人 能 清晰 地 明确 一 个 像 顺序 一 致 性 那样 实用 的 存储 器 一 致 性 模型 再 回 
到 前 面 ， 从 讨论 中 我 们 得 到 的 一 个 比较 重要 的 教训 是 ， 并 行程 序 设计 常常 会 前 弱 抽 象 ， 阻 止 
我 们 隐藏 某 些 低层 的 细节 。 


2.6.5 程序 设计 模型 


本 小 节 已 对 硬件 的 通信 机 制作 了 讨论 ， 隐 含 的 假设 是 程序 员 将 能 直接 使 用 所 提供 的 这 些 
工具 。 当 然 我 们 也 应 注意 ， 我 们 总 会 构造 与 底层 硬件 接口 不 相 匹配 的 软件 接口 。 一 个 明显 的 
例子 是 消息 传递 接口 (在 第 7 章 中 将 对 其 进行 进一步 的 介绍 ) ， 几 乎 无 处 不 实现 ， 甚至 在 实现 
共享 存储 器 的 硬件 上 也 不 例外 。 也 有 人 提出 虚拟 共享 存储 器 ， 尽管 底层 硬件 不 支持 共享 存储 
器 ， 但 仍 能 用 软件 来 实现 共享 存储 器 ， 但 是 这 类 系统 通常 性 能 较 差 。 第 8 章 将 提出 一 个 更 高 级 
的 程序 设计 语言 ， 可 以 构建 在 采用 共享 存储 器 、 单 边 通信 、 抑或 是 消息 传递 机 制 进行 通信 的 
机 器 上 。 
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2.7 进一步 研究 通信 

由 CTA 模 型 指定 的 非 本 地 存储 器 的 巨大 时 延 和 代表 了 一 个 极端 的 开销 。 如 果 能 够 避免 ， 
我 们 就 可 使 程序 运行 得 更 快 。 减 少 1 的 影响 几乎 成 了 我 们 进行 程序 设计 的 核心 。 本 小 节 将 
回答 这 样 的 问题 ,“ 为 了 减少 通信 时 延 我 们 能 做 些 什么 ? ”一 个 肯定 的 回答 当然 是 简化 程 
序 设 计 。 

要 让 P 个 处 理 器 相互 直接 通信 ， 例 如 ， 处 理 器 pi 要 对 处 理 器 忆 的 存储 器 用 直接 存储 器 访问 
(DMA) 方式 进行 访问 ， 就 需要 有 线路 连接 p; 和 pj。 对 图 2-11 中 的 拓扑 进行 快速 回顾 后 ， 就 可 
发 现 ， 并 不 是 所 有 处 理 器 对 之 间 都 有 直接 连接 。 从 技术 上 讲 ，CTA 模 型 中 没有 处 理 器 直接 连 
接 到 其 他 处 理 器 ， 每 个 处 理 器 与 其 他 任何 处 理 器 至 少 需 要 有 一 跳 间 隔 ， 因 为 它 必 须 进 入 网 络 。 
可 是 ， 如 果 在 所 有 情况 下 处 理 器 对 能 以 一 跳 完成 通信 ， 我 们 就 认为 这 就 是 “直接 ”连接 ， 即 
不 需要 通过 网 络 导航 。 就 图 2-11 中 的 拓扑 而 言 ， 信 息 必须 通过 网 络 进行 交换 ， 从 而 导致 交换 
延迟 、 冲 突 、 墙 塞 等 等 。 这 些 现象 延迟 了 数据 的 移动 。 

从 数学 观点 而 言 ， 在 P 个 处 理 器 的 所 有 对 之 间 进 行 直 接连 接 本 质 上 有 两 种 方法 ， 总 线 和 交 
又 开关 。 

“在 总 线 的 设计 中 (图 2-3)， 所 有 处 理 器 连接 到 一 个 公共 的 线 集 。 当 处 理 器 p; 要 与 处 理 器 

Pj 进行 通信 时 ， 它 需要 在 总 线 上 传输 数据 ,这样 就 不 可 能 有 其 他 处 理 器 对 同时 进行 通信 ， 

因为 它们 的 信号 会 干扰 pi: 和 和 pj 的 通信 。 这 样 ， 尽 管 任何 两 个 处 理 器 间 有 直接 的 连接 ， 总 

线 只 允许 每 次 有 一 个 通信 操作 进行 ， 这 就 意味 着 通信 操作 是 囊 行 化 的 。 

。 交 又 开关 的 设计 (图 2-4) 通过 连接 每 个 处 理 器 到 每 一 个 其 他 的 处 理 器 来 克服 串 行 化 通 

信 的 问题 ， 它 允许 任何 不 同 处 理 器 对 的 集 同 时 进行 通信 。 从 计算 的 角度 来 看 ， 该 设计 

是 很 理想 的 ， 因 为 它 允 许 直接 、 无 冲突 的 数据 通信 ， 但 该 方法 过 于 昂贵 。 实 现 交 叉 开 

关 所 需 的 连 线 数 以 n? 增 长 ， 除 了 非常 小 的 计算 机 ， 例 如 x = 32 或 更 小 ， 这 种 方案 是 不 

现实 的 。 

就 两 种 可 用 的 基本 设计 而 言 ， 直 接连 接 只 适用 于 处 理 器 数 很 小 的 情况 ， 惟 有 如 此 才能 
少 通信 操作 竞争 的 可 能 性 (采用 总 线 时 ) 或 是 减少 器 件 的 成 本 (采用 交叉 开关 时 )。 

由 于 直接 连接 的 困难 ， 体 系 结构 师 们 已 发 明了 许多 有 不 同 拓扑 和 通信 协议 的 通信 网 络 ， 
以 使 并 行 计算 机 能 实现 规模 扩展 。 有 关 这 一 主题 有 许多 的 参考 文献 ， 而 图 2-11 只 给 出 了 几 个 
代表 性 的 互 连 拓扑 。 所 有 这 些 站 连 网 络 所 实现 的 连接 性 均 低 于 交叉 开关 ， 且 使 用 较 少 的 资源 ， 
从 而 导致 更 长 的 延迟 和 较 低 的 成 本 。 较 大 的 延迟 迫使 我 们 采用 大 的 4 值 。 此 外 ，4 值 随 计算 机 
规模 (相应 的 ， 通信 网 络 规 模 ) 的 扩展 而 增 大 ， 且 通常 不 是 平滑 的 。 


2.8 CTA 模 型 的 应 用 


回忆 我 们 在 第 1 章 中 求解 统计 3 问题 时 假设 采用 一 个 共享 存储 器 接口 。 开 始 用 一 个 直 截 了 
当 的 方法 (尝试 1)， 发 现 它 存在 竞 态 条 件 。 然 后 ， 我 们 作 了 改正 (尝试 2)， 又 发 现 由 于 公共 
变量 count 的 使 用 导致 很 差 的 性 能 ， 因 为 它 引 入 了 过 度 的 锁 开 销 。 然 后 我 们 再 次 加 以 修改 (党 
试 3)， 发 现 由 于 存在 假 共享 性 能 仍 不 理想 。 最 后 的 程序 (尝试 4) 达到 了 合理 的 性 能 ， 不 过 我 
们 将 在 第 4 章 中 对 该 代码 做 再 一 次 的 改进 。 

CTA 模 型 会 对 求解 统计 3 问题 提供 好 的 指导 吗 ? 是 的 。CTA 模 型 由 于 独立 于 共享 存储 器 通 
信 机 制 或 高 速 缓存 ， 不 会 引入 尝试 2 或 尝试 4 中 所 改正 的 问题 。 它 也 会 指导 我 们 避免 犯 尝试 3 所 
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改正 的 错误 ， 即 单个 全 局 变量 count 和 对 其 更 新 而 引起 的 锁 竞 争 。 该 模型 已 经 告诉 我 们 使 用 单 
个 全 局 变量 意味 着 许多 的 访问 将 会 是 非 本 地 的 ， 从 而 导致 仅 为 了 更 新 count 的 1 开销， 从 而 也 
知道 一 个 更 好 的 方案 是 创建 局 部 的 count， 然 后 再 将 它们 加 以 组 合 。 经 该 模型 的 指导 ， 我 们 应 
该 能 在 第 一 场合 就 写 出 一 个 较 好 的 程序 。 

应 注意 的 是 ， 模 型 能 预测 可 能 存在 的 问题 (依赖 于 单个 全 局 变量 ) 和 修改 方法 (将 局 部 
变量 分 配给 每 个 线程 )， 但 不 能 预测 产生 问题 的 确切 原因 。 模 型 担心 的 是 访问 单个 全 局 变量 的 
高 代价 ， 而 问题 的 实质 在 于 许多 线程 访问 单个 全 局 变量 的 高 代价 。 不 同 的 解释 并 不 是 问题 ， 
只 要 模型 能 识别 这 些 不 好 的 案例 并 指导 我 们 采取 正确 的 补救 办 法 ，CTA 模 型 作 到 了 这 一 点 ， 
但 CTA 不 是 一 个 实际 的 机 器 ， 它 是 对 大 量 机 器 系列 通用 化 的 抽象 模型 ， 所 以 它 不 可 能 匹配 每 
一 种 机 器 。 但 是 就 编写 高 质量 的 程序 所 需 的 信息 而 言 ，CTA 模 型 提供 了 有 关 并 行 计算 机 操作 
的 全 面 的 指导 ， 在 忽略 细节 的 同时 ， 抓 住 了 并 行 计算 的 基本 特性 。 因 而 ， 某 些 实现 存在 访问 
全 局 变量 的 存储 器 时 延 问题 ， 而 某 些 实现 则 没有 ， 但 是 它们 会 有 其 他 的 问题 ， 如 竞争 或 是 其 
他 更 奇怪 的 问题 。 不 同 的 实现 将 以 不 同方 式 表现 并 行 计算 机 的 基本 行为 。 


2.9 小 结 


并 行 计算 机 之 间 的 差异 很 大 ， 如 6 台 计 算 机 的 情况 所 示 。 通 晓 所 有 并 行 计算 机 的 细节 并 编 
写 能 在 任何 平台 上 运行 的 可 移植 的 程序 ， 这 几乎 是 不 可 能 的 。 为 解决 这 一 问题 ， 我 们 采用 了 
CTA 模 型 〈 一 台 抽象 的 并 行 计 算 机 ) 作为 我 们 进行 程序 设计 的 基础 。 借 助 对 抽象 机 设计 程序 
(以 同样 方法 对 RAM 模 型 设计 顺序 算法 )， 我 们 所 设计 的 程序 就 能 运行 在 所 有 按 CTA 模 型 化 的 
机 器 上 ， 它 实际 上 代表 了 所 有 多 处 理 器 计算 机 。 


历史 回顾 


有 关 本 章 的 主题 有 许多 文献 。 从 弗 林 分 类 法 开始 直到 当今 处 理 器 设计 ， 已 经 引起 了 广泛 
的 研究 。 在 理论 社区 界 ，PRAM 模 型 是 广泛 分 析 的 基础 骨 在 识别 并 行 的 极限 ， 此 外 ， 它 也 是 
许 许多 多 并 行 算法 的 基础 ， 包 括 1975 年 的 计算 最 大 值 的 Valiant 算 法 。CTA 模 型 作为 一 种 统一 
并 行 计算 机 的 方法 于 1986 年 提出 。 有 关 处 理 器 间 通 信 的 三 种 主要 方法 中 ， 共 享 存储 器 方法 和 
消息 传递 方法 已 衍生 出 了 大 量 文献 。 
习题 
1. 1024 个 数 用 4 个 线程 进行 相 加 ， 并 假设 将 一 个 单独 变量 sum 分 配 到 一 个 处 理 器 的 存储 器 中 (第 1 总 
中 的 尝试 2) ， 则 由 CTA 模 型 所 预测 的 通信 代价 (以 4 表示 ) 将 为 多 少 ? 假定 数据 在 4 个 处 理 器 间 
均匀 分 布 。 
2. 重 做 习题 1， 但 修改 该 算法 ， 使 得 每 个 线程 保持 sam 全 的 一 个 本 地 拷贝 (尝试 4)。 
3. CTA 是 如 何 对 Sunfire E25K 建 模 的 ? 
4. CTA 是 如 何 对 机 群 计算 机 建 模 的 ， 特 别 是 HP Cluster Blade Platform 6000 的 ? 
5. CTA 的 互连网 络 说 明 多 个 处 理 器 之 间 可 以 同时 通信 ， 隐 含 着 数据 的 并 行 传输 ， 但 总 线 操作 是 串 
行 化 的 。 那 么 为 什么 用 CTA 对 SMP 建 模 会 是 合理 的 ? 


O 原文 误 为 count。 一 一 译 者 注 
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6. 假定 BlueGene/L 的 每 个 处 理 器 中 有 一 个 数 ， 即 每 个 结 点 有 两 个 数 ， 估 算 完成 这 些 数 的 求 和 并 将 
该 总 和 值 广播 给 每 个 处 理 器 所 需要 的 时 间 。 

7. 用 WWW 查 找 其 他 “刀片 机 群 ”的 配置 ， 并 估算 它 的 4 值 。 

8. 单个 处 理 器 是 0 一 立方 ， 两 个 处 理 器 是 1 一 立方 。 给 定 两 个 一 立方 ， 连 接 它们 相应 的 单元 可 生成 一 
个 (n+1) 一 立方 。 在 一 个 n 一 立方 中 ， 连 接任 意 两 个 结 点 所 需 的 通路 长 度 为 多 少 ? 

9. 在 BlueGene/L 机 器 的 3 维 环绕 网 中 ， 如 果 一 “ 跳 ” 是 指 将 一 个 包 文 从 一 个 结 点 送 到 它 的 6 个 邻 结 
点 中 的 一 个 ， 则 将 一 个 包 文 从 结 点 〈1, 2, 3) 送 到 结 点 (4,5,6) 需要 多 少 跳 ? 

10. 如 果 BlueGene/L 役 有 全 局 +-reduction (加 归 约 ) 的 组 合 线路 ， 则 处 理 器 就 需要 实现 如 图 1-3 的 
树 排列 ， 问 该 树 的 深度 〈 即 层 数 ) 将 为 多 少 ? 


第 3 章 性 能 分 析 


性 能 也 许 是 并 行 计算 最 重要 的 目标 ， 而 我 们 在 第 1 章 中 已 经 看 到 要 获得 高 性 能 是 多 么 困难 。 
本 章 我 们 将 介绍 有 助 于 我 们 分 析 并 行 性 能 的 一 些 概念 。 我 们 从 区 分 并 行 性 和 性 能 之 间 的 不 同 
和 定义 基本 术语 开始 。 在 识别 各 种 限制 并 行 性 能 的 因素 之 后 ， 将 解释 相关 性 、 局 部 性 以 及 粒 
度 的 见解 。 然 后 我 们 将 更 深入 地 讨论 为 生成 高 效 的 程序 必须 考虑 的 许多 折 中 方法 。 最 后 ， 我 
们 将 论述 衡量 性 能 的 各 种 方法 ， 它 并 不 如 我 们 所 想像 的 那样 容易 ， 此 外 ， 我 们 将 使 用 这 些 技 
术 展 示 可 扩展 性 很 难 获 得 的 原因 。 


3.1 动机 和 基本 概念 


如 第 1 章 中 加 一 个 向 量 数 例子 所 指出 的 那样 ， 不 同 的 程序 可 以 实现 不 同 的 并 行 数 量 ， 尽 管 
它们 需要 相同 的 工作 量 ， 在 上 述 情况 下 ， 即 是 每 个 程序 需 完 成 相同 的 加 法 次 数 。 自 然 的 求 和 
循环 导致 一 个 顺序 的 操作 规程 ， 如 果 按 此 规程 执行 就 需要 O(n) 时 间 ， 因 为 它 没有 考虑 其 他 进 
程 参与 求解 。 树 的 求 和 方法 允许 同时 完成 子 计 算 ， 当 有 足够 处 理 能 力 时 就 可 获得 O(logzn) 的 执 
行 时间 。 这 是 最 好 的 可 能 解 吗 ?是 哪些 约束 限制 了 最 好 性 能 的 获得 ?还 存在 其 他 机 遇 未 被 开 
发 玛 ? 我 们 将 在 本 章 中 探讨 这 些 问 题 。 


3.1.1 并 行 和 性 能 


理想 情况 下 ， 在 一 个 处 理 器 上 用 7 时 间 完 成 求解 的 问题 ， 在 P 个 处 理 器 上 应 能 用 7P 时 间 完 
成 。 当 然 ， 存 在 很 多 理由 使 这 种 理想 很 难 实现 。 首 先 ， 需 要 明确 至 少 存在 P 倍 并 行 性 。 其 次 ， 
如 我 们 在 第 1 章 的 统计 3 的 个 数 求解 中 所 见 到 的 ， 并 行 计算 通常 会 引入 顺序 计算 中 不 存在 的 那 
些 开销 。 再 次 ， 即 使 有 良好 设计 的 程序 ， 满 足 T/P 目 标的 挑战 随 着 P 的 增加 也 将 变 得 越 加 困难 ， 
这 是 因为 ， 例 如 ， 与 开销 的 代价 相 比 ， 并 行 的 边际 获 益 减 小 了 。 此 外 还 有 更 为 复杂 的 情况 ， 
在 某 些 情况 下 ，P 个 处 理 器 可 产生 比 所 预测 的 7/P 评 估 值 还 要 短 的 执行 时 间 ! 因此 ， 并 行 与 性 
能 是 相关 的 ， 但 它们 并 不 等 同 。 

本 节 的 其 余部 分 将 定义 我 们 将 要 详细 探讨 的 那些 术语 。 


3.1.2 ”线程 和 进程 


描述 并 行 有 两 个 常用 的 抽象 ; 线程 和 进程 。 

线程 是 指控 制 线程 逻辑 上 它 由 程序 代码 、 一 个 程序 计数 器 、 一 个 调用 堆栈 以 及 适量 的 
线程 专用 数据 (包括 一 组 通用 寄存 器 ) 所 组 成 。 线 程 共享 对 存储 器 的 访问 ， 所 以 线程 间 能 通 
过 读 或 写 对 它们 都 可 见 的 存储 器 互相 通信 。( 线 程 也 共享 对 文件 系统 的 访问 。) 用 线程 进行 程 
序 设 计 被 称 为 基于 线程 的 并 行程 序 设计 或 共享 存储 器 并 行程 序 设计 。 

进程 是 拥有 私有 地 址 空间 的 线程 。 进 程 间 的 相互 通信 需 借 助 传递 消息 (也 有 借助 文件 系 
统 的 情况 ， 但 非常 少 )。 用 进程 进行 程序 设计 常 被 称 为 消息 传递 的 并 行程 序 设计 或 非 共 享 存储 
器 并 行程 序 设计 。 
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因为 进程 比 线程 有 更 多 的 相应 状态 ， 因 此 创建 或 销毁 进程 的 开销 要 比 创建 或 销毁 线程 的 
大 得 多 。 因 而 ， 进 程 趋向 于 长 期 生存 ， 而 线程 则 随 着 计算 的 进行 不 时 地 动态 派生 或 销毁 。 


3.1.3 时 延 和 吞吐 率 


在 开始 讨论 性 能 问题 之 前 ， 我 们 必须 对 性 能 的 含义 有 一 致 的 观点 。 虽 然 我 们 常 讲 加 速 计 
算 ， 但 还 可 能 存在 两 个 “ 比 速度 更 好 的 ”指标 : 时 延 和 吞吐 率 。 它 们 分 别 代表 不 同 的 问题 和 
不 同 的 解决 方案 。 

BP AE; 时 延 是 指 完成 一 个 给 定 工作 单位 所 需 的 总 时 间 。 

吞吐 率 ; 吞吐 率 是 指 每 单位 时 间 能 完成 的 总 工作 量 。 

开发 并 行 性 通常 能 改进 吞吐 率 。 例 如 ， 流 水 化 的 微 处 理 器 通过 将 一 条 指令 的 执行 分 成 几 
个 阶段 并 流水 化 多 条 指令 的 执行 ， 就 可 在 每 秒 内 执行 更 多 的 指令 ， 如 图 3-1 所 示 。 在 这 个 例子 
中 ， 完 成 每 条 指令 的 时 间 并 没有 减少 (事实 上 通常 还 有 所 增加 )， 但 在 每 秒 中 却 能 完成 大 量 的 
指令 。 如 果 具 有 同时 执行 5 条 指令 的 能 力 ， 则 吞吐 率 就 可 潜在 地 增加 5 倍 ， 因 而 也 就 减少 了 程 
序 的 执行 时 间 。 

有 时 我 们 开发 并 行 性 是 为 了 隐藏 时 延 。 在 20 世 纪 60 年 代 推 出 的 Multics 操 作 系 统 中 就 已 经 
应 用 了 这 一 概念 。 代 之 以 等 待 一 个 长 的 时 延 操作 ， 处 理 器 切换 上 下 文 环 境 ， 并 转 去 执行 另 一 
个 进程 。 这 一 原理 (与 其 闲置 ， 不 如 使 计算 的 其 余部 分 前 行 ) 经 常 被 使 用 。 时 延 隐藏 技术 实 
际 上 并 没有 减少 时 延 ， 它 只 是 隐藏 了 时 延 的 代价 ， 即 由 于 等 待 而 丧失 的 执行 时 间 。 还 需 注意 
的 是 ， 这 种 技术 依赖 于 有 足够 多 的 可 用 并 行 性 (独立 的 任务 ) ， 以 使 处 理 器 在 等 待 长 时 延 事件 
时 仍 能 处 于 繁忙 状态 。 所 需 的 并 行 性 数 通常 随 我 们 试图 隐藏 时 延 的 增长 而 增加 。 
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图 3-1 简化 的 处 理 器 流水 线 。 将 指令 的 执行 分 为 5 个 相等 部 分 ， 理 想 情况 下 可 同时 执行 5 条 指令 ， 与 执行 
单条 指令 相 比 执行 时 间 可 改进 5 倍 
毫 不 奇 保 ， 为 了 实际 地 减少 时 延 ， 还 有 许多 利用 并 行 的 硬件 技术 ， 如 使 用 cache 和 存储 器 
预 取 。 





3.2 性 能 损失 的 原因 


尽管 我 们 满怀 希望 地 相信 使 用 P 个 处 理 器 能 使 计算 加 速 P 倍 ， 但 以 下 4 个 基本 理由 表明 这 种 
希望 可 能 无 法 达到 。 这 些 理由 有 时 重 释 ， 它 们 分 别 是 : 

1. 顺序 计算 不 需要 付出 的 开销 

2. 不 可 并 行 化 的 计算 部 分 

3. 闲置 的 处 理 器 

4. 对 资源 的 竞争 

所 有 其 他 的 开销 来 源 均 是 这 4 个 理由 的 特殊 情况 。 


3.2.1 开销 


任何 出 现在 并 行 求解 中 但 不 会 出 现在 串 行 求解 中 的 代价 被 认为 是 开销 。 建 立 线程 和 进程 
以 并 发 执行 ， 以 及 撤销 线程 和 进程 均 存 在 开销 ， 图 3-2 给 出 了 这 种 开销 的 示意 图 。 








图 3-2 线程 和 进程 的 建立 和 撤销 开销 的 示意 图 


由 于 存储 器 的 分 配 及 其 初始 化 非常 昂贵 ， 因 此 进程 的 建立 开销 远大 于 线程 。 在 第 一 个 进 
程 建立 后 ， 所 有 后 继 的 线程 和 进程 的 建立 所 形成 的 开销 在 顺序 计算 中 不 会 出 现 。 这 些 代 价 表 
示 并 行 化 的 开销 。 

通常 认可 的 并 行 开销 来 源 有 以 下 4 种 。 

通信 线程 和 进程 间 的 通信 是 开销 的 主要 部 分 。 由 于 在 顺序 计算 中 ， 处 理 器 并 不 需要 与 其 
他 处 理 器 进行 通信 ,因此 在 并 行 计算 中 所 有 通信 都 是 一 种 开销 。 例 如 , 在 统计 3 的 个 数 求解 中 ， 
假 共享 是 处 理 器 间 通 信 的 一 种 开销 (尽管 这 不 是 所 希望 的 通信 ) ， 因 为 cache 行 将 在 不 同 处 理 
器 的 cache 中 来 回 跳跃 。 在 统计 3 的 个 数 的 计算 例子 中 ， 某 些 通信 开销 (如 与 共享 计数 器 的 通 
信 ) 是 不 可 避免 的 ， 而 其 他 的 通信 ， 如 由 假 共 享 引 起 的 ， 可 以 通过 提供 其 他 资源 (如 额外 的 
存储 器 ) 加 以 避免 。 

通信 的 具体 代价 与 硬件 的 细节 密切 相关 。 表 3-1 中 列 出 了 不 同 通信 机 制 的 硬件 通信 代价 的 
各 种 组 成 部 分 。 


表 3-1 由 通信 机 制 引 起 的 通信 开销 源 


机 制 通信 代价 的 成 分 
共享 存储 器 传输 延迟 ， 一 致 性 操作 ， 互 斥 ， 竞 争 
单 边 通信 HER, LR, HS 
消息 传递 传输 延迟 ， 数 据 编组 ， 消 息 格式 化 ， 数 据 解 组 ， 竞 争 


同步 ” 当 一 个 线程 或 进程 必须 等 待 另 一 个 线程 或 进程 中 出 现 的 事件 时 就 存在 同步 开销 。 例 
如 ， 一 个 线程 可 能 等 待 某 个 进程 计算 一 个 值 或 释放 资源 。 比 如 ， 在 统计 3 的 个 数 例子 中 ， 线 程 
化 的 代码 需要 获取 或 释放 锁 就 是 同步 开销 ， 因 为 在 顺序 代码 中 不 需要 完成 这 种 操作 。 我 们 从 
该 例 中 还 可 看 到 如 果 锁 的 获取 次 数 很 大 的 话 ， 那 么 这 种 开销 就 会 非常 可 观 。 在 许多 消息 传递 
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方式 中 同步 是 隐 式 的 ， 而 在 用 线程 进行 程序 设计 时 ， 则 同步 通常 是 显 式 的 。 

计算 并 行 计算 几乎 总 是 要 完成 一 些 额 外 的 计算 ， 这 些 计 算 在 顺序 求解 时 是 不 需要 的 。 例 
如 需要 计算 出 每 个 线程 要 负责 完成 计算 中 的 哪 一 部 分 。 在 统计 3 的 个 数 例子 中 ， 这 种 开销 是 很 
小 的 。 另 一 个 例子 是 ， 出 现在 顺序 程序 中 的 计算 同样 也 要 出 现在 每 个 线程 中 ， 初 始 化 便 是 一 
个 例子 ， 因 为 个 线程 将 执行 该 代码 ft 次 ， 而 不 是 一 次 。 这 些 元 余 的 计算 代表 不 可 并 行 代码 的 特 
殊 情况 ， 关 于 这 一 点 我 们 稍 后 将 进行 更 详细 的 讨论 。 

存储 器 ”并 行 计算 常常 导致 存储 器 的 开销 。 虽 然 这 种 开销 并 不 总 是 会 影响 性 能 (在 统计 3 
的 个 数 例子 中 ， 作 为 存储 器 开销 的 数据 额外 填充 还 可 改善 性 能 ) ， 但 对 并 行 计 算 来 讲 可 能 很 重 
要 ， 因 为 计算 的 规模 受制 于 存储 器 的 容量 。 


3.2.2 不 可 并 行 代码 


当然 ， 如 果 一 个 计算 在 本 质 上 是 顺序 的 〈 即 表明 它 不 可 能 并 行 化 ) ， 那 么 使 用 再 多 的 处 理 
器 也 无 法 改进 性 能 。 有 时 这 种 代码 以 元 余 计 算 形 式 表 示 在 一 个 并 行 计算 中 。 例 如 ， 如 果 顺 序 
和 并 行 计算 两 者 都 循环 [次 ， 那 么 循环 的 开销 ， 如 递增 归纳 变量 (induction variable) 和 测试 
终止 条 件 ， 并 不 会 因 并 行 而 增多 。 在 其 他 情况 中 ， 计 算 由 单个 线程 或 进程 完成 ， 而 其 他 的 线 
程 或 进程 则 处 于 闲置 状态 。 一 个 可 能 的 例子 是 磁盘 IO ， 由 于 某 些 处 理 器 不 附属 于 网 络 ， 因 而 
在 执行 VO 操作 时 ， 这 些 处 理 器 就 不 得 不 处 于 闲置 状态 。 l 

阿 姆 达 尔 定律 不 可 并 行 计算 的 存在 是 很 重要 的 ， 因 为 它 将 限制 并 行 化 的 潜在 好 处 。 阿 姆 
达尔 定律 指明 如 果 一 个 计算 的 /5 本质 上 是 顺序 的 ， 那 么 最 大 的 性 能 改进 将 受 限于 因数 S$。 其 
论证 如 下 ， 一 个 并 行 计算 的 执行 时 间 7Tp 将 是 顺序 部 分 计算 时 间 和 可 并 行 化 部 分 计算 时 间 两 者 
的 和 。 如 果 该 计算 顺序 地 执行 需要 花费 的 时 间 是 Ts;， 则 当 有 P 个 处 理 器 时 ，7T; 可 表示 为 

Tp=1/S: Ts +(1— 1/8) < Ts / P 

假想 P 值 非常 大 ， 使 得 可 并 行 化 部 分 的 执行 时 间 可 以 忽略 不 计 ， 则 最 大 可 改进 的 性 能 将 是 因 
数 $。 也 就 是 说 ， 顺 序 执行 代码 在 计算 中 所 占 的 比例 决定 了 使 用 并 行 手段 所 能 改进 性 能 的 潜力 。 

阿 姆 达 尔 定 律 (Amdahl’s Law) 阿 姆 达尔 定律 是 由 IBM 公 司 的 计算 机 体系 结构 师 吉 

思 . 阿 姆 达尔 在 19617 年 发 表 的 论文 中 提出 的 。 这 一 定律 与 供求 定律 (Low of Supply and 

Demand) 具有 同样 的 意义 : 如 前 面 的 方程 式 所 示 ， 它 描述 了 程序 执行 时 间 中 两 部 分 的 

关系 。 两 个 定律 均 是 解释 重要 现象 行为 的 有 力 工具 ， 且 两 个 定律 部 将 影响 该 行为 的 其 

他 参量 视 为 常数 。 特 别 地 ， 阿 姆 达尔 定律 适用 于 单程 序 场 合 。 


实际 的 情况 可 能 比 阿 姆 达 尔 定律 暗示 的 更 坏 。 一 个 明摆着 的 问题 是 计算 的 可 并 行 化 部 分 
可 能 无 法 改进 到 极致 ( 即 只 要 增加 仍 可 继续 改进 性 能 的 处 理 器 数 总 有 一 个 上 限 ) ， 因 此 并 行 执 
行 时间 不 大 可 能 消失 。 此 外 ， 如 在 上 一 节 所 提 到 的 ， 一 个 并 行 实现 经 常会 比 顺序 求解 需要 执 
行 更 多 的 总 指令 数 ， 导 致 低估 (1 一 1/S) - Toff. 

包括 阿 姆 达 尔 在 内 的 许多 人 对 该 定律 的 解释 表明 使 用 大 量 的 处 理 器 求解 问题 只 能 获得 有 
限 的 成 功 ， 但 这 似乎 与 大 量 的 并 行 计 算 机 能 显著 改进 计算 性 能 的 报道 相 冲突 。 到 底 哪 一 个 是 
正确 的 呢 ? 

阿 姆 达 尔 定律 描述 的 一 个 关键 事实 是 它 只 适用 于 计算 的 一 种 场合 ， 即 施行 并 行 化 后 计算 
中 的 顺序 部 分 将 占据 执行 时 间 的 主要 部 分 。 阿 姆 达尔 定律 是 在 固定 应 用 规模 的 前 提 下 考虑 并 
行 性 增长 的 影响 。 但 大 多 数 并 行 计算 则 是 固定 并 行 性 而 扩展 应 用 的 规模 。 在 这 种 情况 下 ， 随 
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着 所 考虑 规模 的 增加 ， 顺 序 代码 所 占 的 比例 就 越 来 越 小 。 所 以 ， 将 问题 规模 翻 们 后， 顺序 部 
分 的 增长 几乎 可 以 忽略 ， 从 而 使 得 求解 问题 有 更 多 的 部 分 可 以 并 行 执行 。 

概括 地 讲 ， 阿 姆 达尔 定律 并 不 否定 并 行 计算 的 价值 。 相 反 ， 它 提醒 我 们 要 想 达到 并 行 
能 就 必须 考虑 整个 程序 。 


3.2.3 竞争 


为 争夺 共享 资源 而 引起 的 竞争 将 使 系统 性 能 衰减 。 我 们 将 竞争 视 为 是 开销 的 一 种 特殊 情 
况 ， 但 竞争 值得 我 们 特别 的 注意 ， 因 为 它 的 影响 经 常会 降低 系统 的 性 能 ， 甚 至 比 单 处 理 器 的 
还 要 差 。 例 如 ， 我 们 在 第 1 章 中 已 经 见 到 如 何 由 于 锁 的 竞争 而 导致 存储 器 的 过 度 负载 ， 最 终 降 
低 了 系统 性 能 。 特 别 是， 如 果 锁 实现 为 自 旋 锁 ， 此 时 一 个 等 待 的 线程 将 重复 检查 锁 的 可 用 性 ， 
这 种 等 待 锁 的 操作 将 增加 总 线 的 通信 重 。 这 种 竞争 特别 有 害 ， 因 为 它 影响 所 有 企图 访问 此 共 
享 总 线 的 线程 ,尽管 有 些 线程 并 不 竞争 这 同一 个 锁 。 第 1 章 还 说 明了 第 二 种 形式 的 竞争 ， 即 由 
假 共 享 引起 数据 值 在 不 同 的 cache 中 来 回 跳跃 ， 导 致 性 能 的 衰减 。 在 那 种 情况 下 ， 两 个 本 地 
cache 竞 争 相同 的 cache 行 ， 但 所 有 处 理 器 所 感受 到 的 效果 是 增加 了 总 线 的 通信 量 ， 


3.2.4 空闲 时 间 


理想 情况 时 ， 所 有 处 理 器 在 所 有 时 间 都 忙于 工作 ， 但 实际 可 能 并 非 如 此 。_ 个 进程 或 线 
程 由 于 缺少 工作 或 因为 正在 等 待 某 种 外 部 事件 的 发 生 ， 如 来 自 其 他 进程 的 数据 ， 将 无 法 继续 
执行 。 因 此 ， 闲 置 时 间 通 常 是 同步 和 道 信 所 造成 的 。 正 如 下 一 节 的 相关 性 所 展示 的 ， 闲 置 时 
间 将 以 多 种 方式 显示 出 来 。 

负载 不 平衡 闲置 时 间 的 一 个 公共 来 源 是 处 理 器 负载 的 不 均衡 分 布 ， 这 就 是 常 说 的 负 
载 不 平衡。 极端 的 例子 出 现在 一 个 顺序 计算 只 运行 在 并 行 计算 机 的 一 个 处 理 器 上， 而 其 他 
的 处 理 器 处 于 闲置 状态 。 在 其 他 的 情况 下 ， 可 能 工作 是 并 行 执行 的 ， 但 工作 负载 的 分 配 不 
平衡 。 

例如 ， 在 第 1 章 的 基于 树 的 并 行 求 和 中 ， 第 1 组 的 成 对 求 和 计算 需要 n/2 个 处 理 器 ， 第 2 组 
的 成 对 求 和 需要 nm/4 个 处 理 器 ， 等 等 。 如 此 ， 在 第 1 步 的 计算 后 ， 在 求 和 完成 时 ， 有 一 半 的 处 
理 副 处 于 闲置 状态 。 在 第 4 章 中 ， 我 们 将 看 到 一 个 更 聪明 的 方法 以 减少 这 种 不 平衡 的 影响 

存储 器 受 限 计 算 一 个 处 理 器 如 果 正 在 等 待 一 个 存储 器 操作 时 ， 如 读 DRAM 时 ， 也 可 能 
发 生 停顿 。 存 储 器 系统 的 性 能 可 用 以 下 两 个 参数 衡量 一 带宽 和 时 延 。 由 于 历史 的 原因 ， 
PRAM 的 时 延 改 进 的 速度 比 处 理 器 速度 的 改进 速度 要 慢 ， 所 以 就 CPU 周期 而 言 ， 与 DRAM 的 
电离 不 断 拉 大 。 当 数据 能 存放 在 cache 中 时 ， 就 可 以 避免 这 些 时 延 ， 但 是 当 计算 显示 出 差 的 局 
部 性 或 当 要 访问 大 量 数据 时 ， 就 必须 经 常 访问 工作 速度 慢 的 DRAM。DRAM 带 寅 之 所 以 重要 
有 两 个 原因 。 首 先 ， 许 多 时 延 隐藏 技术 ， 如 预 取 和 硬件 多 线程 ， 在 企图 减少 存储 器 时 延 时 引 
人 了 额外 的 存储 器 通信 量 。 其 次 ， 即 使 计算 的 工作 集 能 驻 留 在 cache， 但 当 它们 装载 这 些 cache 
时 也 必定 会 消费 存储 器 的 带宽 。 

多 核 芯片 的 带宽 约束 当 核 的 数目 增长 正比 于 指数 增长 的 晶体 管 数 时 ， 存 储 器 带宽 的 约 

束 就 成 为 多 核 芯片 中 的 特别 问题 ， 存储 器 带宽 和 I/O 带 宽 受 芯 片 脚 数 的 限制 ， 而 这 通常 

又 受 限于 芯片 的 边 限 ，。 新 的 工艺 技术 可 能 致力 于 解决 这 一 问题 ， 但 这 种 解决 办 法 还 未 

达到 商用 程度 。 
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3.3 并 行 结构 


在 了 解 了 各 种 可 能 降低 并 行 性 能 的 因素 之 后 ， 现 在 转 而 讨论 三 个 紧密 相关 的 概念 ， 这 些 
概念 能 帮助 我 们 避免 这 些 问 题 。 相 关 性 的 概念 将 提供 一 种 推断 低 效 来 源 的 方法 ， 粒 度 概念 将 
帮助 我 们 匹配 计算 和 底层 的 硬件 资源 ， 而 局 部 性 的 目的 是 在 于 指导 我 们 考虑 自然 地 具有 合适 
粒度 和 减少 相关 性 的 解决 方案 。 


3.3.1 相关 性 


相关 性 是 指 两 个 计算 间 的 排序 关系 。 在 不 同 场合 相关 性 以 不 同形 式 表现 出 来 。 例 如 ， 在 
两 个 进程 间 ， 当 一 个 进程 等 待 来 自 另 一 进程 的 消息 到 达 时 ， 就 出 现 了 相关 性 。 相 关 性 也 能 以 
读 写 操作 加 以 定义， 对 于 线程 计算 来 讲 就 相应 于 存储 器 的 装载 和 存储 。 下 面 就 一 个 程序 需要 
对 某 个 特定 的 存储 单元 在 写 (存储 ) 之 后 进行 读 (装载 ) 这 一 情况 进行 讨论 。 

为 了 产生 正确 的 结果 ， 在 写 操作 和 读 操作 之 间 存 在 相关 性 ， 如 图 3-3 所 示 。 如 果 两 个 操作 
顺序 在 时 间 上 发 生 错 位 使 得 线程 2 的 读 先 于 线程 1 的 写 ， 则 就 会 违反 相关 性 ， 程 序 的 语义 就 可 
能 发 生 改 变 (参见 图 1-8 中 针对 此 情况 的 例子 )。 遵 从 所 有 相关 性 的 任何 执行 顺序 的 排列 都 将 
产生 如 最 初 程序 所 指定 的 相同 结果 。 因 此 ， 相 关 性 的 概念 允许 我 们 描述 和 区 别 哪些 执行 顺序 
必须 保证 而 哪些 不 必 ， 从 而 保证 程序 执行 的 正确 性 。 

相关 性 提供 了 一 个 通用 方法 以 描述 对 并 行 的 限制 ， 因 此 它 不 但 有 助 于 推断 正确 性 ， 而 且 
提供 了 一 种 方法 以 推断 性 能 损失 的 可 能 原因 。 例 如 ， 跨 线程 或 进程 边界 的 数据 相关 性 就 需要 
在 两 个 线程 或 进程 间 进 行 同步 或 通信 。 在 了 解数 据 相 关 性 的 存在 后 ， 就 能 先行 了 解 并 行 的 后 
有 果 ， 即 使 我 们 并 不 知道 是 计算 中 的 哪 一 部 分 导致 了 这 种 排序 关系 。 为 了 更 清楚 地 了 解 这 一 点 ， 
下 面 考 虑 相关 性 中 一 种 称 为 数据 相关 性 的 特殊 形式 。 











线程 1 线程 2 
了 count<>0 
count 
递增 
存 count count=1 
rt ne 取 count 时 间 
递增 
count=2 存 count 
站 








图 3-3 一 个 线程 的 存储 器 写 (存储 ) 操作 和 另 一 个 线程 的 存储 器 读 (装载 ) 操作 之 间 的 相关 性 


数据 相关 性 数据 相关 性 是 指 对 一 对 存储 器 操作 的 排序 ， 为 了 保持 正确 性 必须 保持 这 种 排 
序 关 系 。 有 三 种 类 型 的 数据 相关 性 : 

。 流 相关 ， 写 后 读 

。 反 相关 : 读 后 写 

“输出 相关 : 写 后 写 

刚才 叙述 的 流 相 关 也 称 为 真相 关 ， 因 为 它 代表 了 存储 器 操作 的 基本 排序 。 与 此 相反 ， 反 
相关 和 输出 相关 被 认为 是 伪 相 关 ， 因 为 它们 是 由 存储 器 的 重用 而 引起 的 而 不 是 操作 的 基本 排 
序 ， 虽 然 将 它们 称 为 “ 伪 ” 相 关 ， 但 它们 仍 与 我 们 有 关 ， 因 为 经 常 希 望 重用 存储 器 。 为 了 完 
整 起 见 ， 有 些 时 候 需 考 虑 第 四 种 形式 的 相关 性 ， 即 输入 相关 性 ( 读 后 读 ) ， 它 不 会 强加 任何 排 


序 的 约束 ， 但 有 了 时 会 有 助 于 对 暂时 本 地 性 的 推断 。 
为 了 了 解 真 伪 相关 性 的 差别 ， 考 虑 以 下 的 代码 段 : 
2 first tormesum*scalel; 
3 sum=b+1; 
4 second term=sum*scale2; 


在 行 1 和 行 2 之 间 存 在 流 相关 〈 通 过 sum) ， 类 似 地 在 行 3 和 行 4 之 间 有 流 相关 。 此 外 ， 在 行 2 
和 行 3 之 间 对 sum 有 反 相 关 。 该 反 相 关 阻 止 第 1 对 语句 和 第 2 对 语句 的 并 发 执行 。 但 可 以 看 到 如 
果 将 第 1 对 语句 中 的 sum 重 命名 为 first_sum， 而 重 命名 第 2 对 语句 中 的 sum 为 second_sum， 就 可 
使 这 两 对 语句 并 发 执行 ， 其 代码 如 下 : 

1 first_sum=a+1; 

2 first_term=first_sum*scalel; 


3 second_sum=b+1; 
4 second_term=second_sum*scale2; 


这 样 ， 通 过 增加 存储 器 的 使 用 ， 我 们 就 可 增加 程序 的 并 发 性 。 
与 此 相反 ， 无 法 通过 重 命名 变量 来 消除 流 相关 。 初 看 起 来 ， 可 以 像 如 下 那样 直接 替换 行 2 
和 行 4 中 的 sum 来 消除 流 相关 : 


1 first term=(at+l)*scalel; 
2 second_term=(b+1)*scale2; 


但 实际 上 却 无 法 消除 ， 因 为 在 以 上 的 两 项 中 不 论 如 何 书写 表示 式 ， 加 法 必须 先 于 乘法 执 
行 。 从 sum 的 写 和 (可 能 写 和 一 个 内 部 寄存 器 ) 到 作为 操作 数 的 sum 读 出 (可 能 从 一 个 内 部 容 
存 器 读 出 ) 的 这 个 数据 流 仍 保持 不 变 。 


3.3.2 相关 性 限制 并 行 性 


为 了 了 解 相关 性 是 如 何 限制 并 行 性 的 ， 请 回忆 第 1 章 中 对 n 个 数 求 和 的 例子 。 它 的 顺序 代 
码 段 为 如 下 形式 ; 

tor 120; i<n; i++) 

sumt+=x[ij; 

} 

我 们 断言 以 下 的 代码 具有 更 多 的 并 行 性 ， 即 使 两 个 代码 段 都 用 顺序 语言 表示 ， 

((x[0]+ X[1])+ (X[2]+ x[3]))+ ((x[4]+ x[5])+ (x[6]+ x[7])) 

图 3-4 图 示 了 这 两 个 代码 段 ， 不 含 叶子 的 边 代 表 一 个 流 相关 ， 因 为 下 面 的 函数 将 写 存储 器 ， 
而 上 面 的 函数 将 从 同一 存储 单元 读 出 。 两 段 代码 的 之 间 的 差异 现在 就 很 清楚 了 。 在 图 3-4a 中 ， 
顺序 求解 定义 了 一 系列 的 流 相 关 ， 必 须 遵从 它们 的 排序 关系 。 相 反 ， 图 3-4b 指 明 的 是 较 短 的 
流 相关 链 ， 意味 着 较 少 的 排序 约束 以 及 允许 更 多 的 并 发 性 。 实 际 上 ， 当 我 们 用 C 语 言说 明 数 的 
相 加 时 ， 除 了 说 明 哪些 数 相 加 之 外 ， 还 隐 含 说 明了 相 加 顺序 的 约束 。( 我 们 需要 识别 该 操作 
(加 ) 是 可 结合 的 ， 从 而 知道 这 两 个 求解 会 生成 相同 的 结果 ) 

关键 在 于 当 创 建 一 个 并 行程 序 时 。 我 们 必须 十 分 小 心 避免 引入 相关 性 ， 虽 然 这 种 相关 性 
对 计算 无 关 紧 要 ， 但 这 些 相关 性 将 会 不 必要 地 限制 并 行 性 。( 知 晓 f0 是 加 法 这 一 点 ， 就 可 以 使 
编译 技术 将 该 代码 转换 成 更 为 并 行 的 形式 ， 但 是 这 种 技术 的 应 用 范围 有 限 ， 因 此 最 好 是 在 一 
开始 就 努力 避免 相关 性 。) 
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图 3-4 顺序 和 基于 树 的 加 法 算法 示意 图 ， 不 与 叶子 连接 的 边 表示 流 相 关 


易 并 行 计算 某 些 计算 很 容易 并 行 化 ， 因 为 它们 是 由 大 量 相互 之 间 显 然 不 存在 相关 性 的 
线程 所 组 成 。 我 们 称 这 些 计 算 为 易 并 行 的 。 例 子 之 一 是 杰 德 坦 罗 特集 ， 它 是 一 种 分 形 
计算 ， 在 这 种 计算 中 ， 复 数 平 面 上 的 每 一 个 点 可 以 相互 独立 地 计算 。 光 线 跟踪 ， 它 是 
一 种 图 形 绘制 技术 ， 模 拟 光 线 的 流动 以 生成 现实 的 图 像 ， 也 是 易 并 行 计算 ， 因 为 它 跟 
踪 多 条 独立 的 光线 以 绘制 一 个 图 像 。( 传 统 的 递归 光线 跟踪 算法 是 易 并 行 的 ， 但 这 种 算 
法 在 带宽 受 限 的 多 核 芯片 上 并 不 能 很 好 运行 ， 因 为 它 不 能 有 效 地 利用 存储 器 层次 .) 


3.3.3 粒度 


管理 由 相关 性 引起 约束 的 一 个 关键 概念 是 粒度 ， 通 常 使 用 竹 和 细 来 描述 粒度 ， 虽 然 也 可 
用 大 和 小 来 描述 。 

并 行 的 粒度 并 行 的 粒度 由 线程 或 进程 间 的 交互 频率 所 决定 ， 即 跨越 线程 或 进程 边界 的 相 
关 性 的 频率 。 这 里 的 频率 是 用 交互 之 间 的 指令 数 衡量 的 。 因 此 ， 粗 粒度 是 指 线程 和 进程 依赖 
于 其 他 线程 或 进程 的 数据 或 事件 的 频 度 是 较 低 的 ， 而 细 粒 度 计算 则 是 那些 交互 频繁 的 计算 。 
粒度 的 概念 很 重要 ， 因 为 每 次 交互 必 将 引入 通信 或 同步 ， 以 及 它们 相应 的 开销 。 

实现 低 时 延 通 信 的 硬件 平台 ， 如 多 核 芯 片 ， 支 持 较 细 粒 度 的 计算 。 而 实现 高 时 延 通信 的 
硬件 平台 ， 采 用 较 大 的 粒度 就 较 好 ， 因 为 交互 的 开销 较 高 。 由 于 消息 传递 的 软件 开销 通常 很 
大 ， 因 此 消息 传递 程序 通常 最 适宜 粗 粒度 计算 ， 即 便 在 低 时 延 的 通信 基础 上 也 为 如 此 。 如 我 
们 在 本 章 后 面 将 要 讨论 的 那样 ， 存 在 许多 创建 粗 粒 度 计算 的 技术 ， 这 些 技 术 一 般 以 损失 存储 
器 或 计算 为 代价 ， 以 减少 交互 的 频率 或 隐藏 这 些 交互 的 时 延 。 

粒度 概念 的 应 用 一 个 重要 的 经 验 是 在 所 有 情况 下 最 好 不 要 固定 粒度 。 相 反 ， 应 该 使 计算 - 
的 粒度 与 低层 硬件 可 用 资源 以 及 求解 问题 具体 需求 相 匹配 。 例 如 ， 第 1 章 中 所 叙述 的 最 初 的 前 
组 求 和 是 一 个 只 含有 很 小 工作 量 以 及 与 相 邻 线程 进行 细 粒 度 交 互 的 细 粒 度 计 算 。 

在 极端 的 情况 ， 最 粗 粒度 的 计算 含有 巨 量 的 计算 而 无 交互 。BOINC (Berkeley Open 
Infrastructure for Network Computing， 伯 克利 网 络 计算 开放 设施 ) 就 支持 这 种 计算 ， 它 允许 
将 子 问 题 分 布 到 个 人 计算 机 上 并 完全 在 本 地 求解 ， 唯 一 的 通信 是 在 最 后 将 结果 报告 给 问题 的 
分 配 者 。 在 这 种 框架 中 ， 并 行 计 算 机 就 是 用 因特网 连接 的 PC 机 集合 。 采 用 这 种 超 粗 粒度 的 策 
略 是 非常 关键 的 ， 因 为 因特网 的 通信 有 很 大 的 时 延 。 
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另 一 个 极端 则 是 运行 在 多 核 芯片 上 线程 ， 由 于 处 于 同一 芯片 上 的 各 处 理 器 间 的 通信 和 具有 
很 低 的 时 延 ， 因 此 在 交互 间 使 用 具有 几 百 条 指令 的 细 粒 度 线程 是 可 行 的 。 


3.3.4 局 部 性 


与 粒度 密切 相关 的 概念 是 局 部 性 。 计 算 能 显示 出 时 间 局 部 性 (存储 器 访问 在 时 间 上 成 饶 ) 
和 空间 局 部 性 (存储 器 访问 在 地 址 上 成 徐 ) 两 者 。 请 回忆 局 部 性 是 计算 中 的 重要 现象 ， 它 是 
cache 能 工作 的 原因 。 当 然 ， 并 行 计算 机 的 处 理 器 也 使 用 cache， 所 以 所 有 时 间 和 空间 局 部 性 的 
得 益 均 是 可 能 的 ， 只 要 访问 保持 局 部 性 以 使 得 被 访问 的 对 象 均 处 在 cache 中 。 的 确 ， 运 行 在 数 
据 块 而 不 是 单个 数据 项 上 的 算法 总 是 显示 出 空间 局 部 性 ， 因 此 这 种 算法 总 是 受 青睐 的 。 

在 并 行 的 环境 中 ， 局 部 性 还 具有 使 线程 或 进程 间 相 关 性 减 到 最 小 的 附加 好 处 ， 从 而 能 减 
少 开销 和 竞争 。 如 在 前 面 所 描述 的 那样 ， 非 本 地 的 访问 意味 着 某 种 形式 的 通信 ， 它 是 纯 开销 ， 
所 以 会 限制 并 行 性 能 。 此 外 ， 为 了 进行 非 本 地 的 访问 ， 线 程 或 进程 常会 竞争 互连网 络 或 是 存 
储 器 系统 资源 。 

为 使 局 部 性 的 优点 更 加 具体 ， 考 处 统计 3 的 个 数 问题 的 最 后 一 个 解 (尝试 4)。 由 于 工作 在 
连续 的 存储 器 块 上 ， 每 个 线程 开发 了 空间 局 部 性 ， 由 于 在 本 地 变量 上 累加 中 间 和 ， 每 个 线程 
开发 了 时 间 局 部 性 ， 由 于 每 个 线程 只 更 新 共享 和 一 次 ， 使 通信 减少 到 最 低 程 度 ， 从 而 改进 了 
局 部 性 并 减少 了 开销 和 通信 。 请 注意 ， 使 用 本 地 的 累加 变量 是 用 少量 的 额外 存储 器 消除 假 相 
关 的 又 一 个 例子 。 


3.4 性 能 协调 


前 面 几 闻 已 经 解释 了 相关 性 是 如 何 限制 并 行 的 ， 以 及 为 什么 考虑 局 部 性 和 合适 的 粒度 是 
重要 的 。 我 们 现在 解释 为 什么 产生 高 效 的 并 行程 序 可 能 很 困难 。 首 先 与 顺序 性 能 分 析 情况 作 
对 比 ， 然 后 讨论 多 种 可 行 的 协调 。 

一 般 来 讲 ， 推 断 顺 序 计算 的 性 能 是 非常 直截了当 的 。 对 于 大 多 数 程序 ， 只 要 统计 程序 所 
执行 的 指令 数 就 可 以 了 。 在 某 些 情况 下 ， 我 们 意识 到 存储 器 系统 性 能 是 瓶 厌 ， 所 以 只 需 寻 找 
减少 对 存储 器 使 用 或 是 设法 改进 存储 器 系统 性 能 的 方法 。 在 这 种 框架 中 ， 通 常 要 求 程序 员 如 
免 过 早 地 使 用 90/10 规 则 进行 优化 ，90/10 规 则 是 指 90% 的 程序 执行 时 间 将 花 在 10% 的 程序 代码 
十 。 因 此 ， 一 个 谨慎 的 策略 是 不 加 任何 修饰 地 编写 程序 ， 如 果 它 的 性 能 需要 改进 ， 则 将 支配 
执行 时 间 的 10% 代 码 识 别 出 来 。 然 后 ， 对 这 10% 的 代码 进行 重 写 ， 也 许 重 写 时 要 使 用 能 提供 更 
大 控制 的 其 他 语言 ， 如 C 或 汇编 语言 。 

遗憾 的 是 ， 并 行程 序 的 情况 要 复杂 得 多 。 正 是 阿 姆 达尔 定律 告诉 我 们 ， 不 能 并 行 的 10% 
的 计算 将 限制 我 们 可 能 从 并 行 化 获得 的 最 大 性 能 改进 最 多 为 10 倍 ， 而 这 在 许多 场合 是 不 能 满 
足 要 求 的 。 此 外 ， 决 定性 能 的 因素 不 只 是 指令 数 ， 还 包括 通信 时 间 、 等 待 时间 、 相 关 性 等 等 ， 
动态 的 影响 (如 竞争 ) 则 与 时 间 有 关 ， 且 随 不 同 求解 问题 和 不 同 机 器 而 会 有 所 不 同 。 因 此 ， 
控制 代价 和 识别 瓶颈 就 会 比 顺序 情况 更 加 复杂 。 

我 们 已 经 了 解 了 通信 代价 、 闲 置 时 间 、 等 待 时 间 以 及 其 他 能 影响 并 行 计算 性 能 的 参量 ， 
复杂 的 原因 在 于 当 企图 降低 某 一 因素 的 代价 时 可 能 会 增加 其 他 因素 的 代价 。 因 此 了 解 这 些 因 
素 的 协调 (trade-off) 是 很 重要 的 ,因为 不 同 的 算法 和 不 同 的 计算 平台 将 青睐 不 同 的 协调 方案 。 
下 面 将 讨论 这 些 问 题 。 
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3.4.1 通信 和 计算 
通信 代价 常常 是 开销 的 重要 来 源 。 通 过 完成 附加 的 计算 常常 可 减少 通信 。 
重生 通信 和 计算 ”减少 通信 代价 的 一 种 方法 是 重 友 通信 和 计算 。 关 键 在 于 要 识别 出 独立 于 

通信 的 计算 。 通 过 并 发 地 执行 计算 和 通信 ， 通 信 的 时 延 就 可 部 分 或 完全 地 被 隐藏 。 在 第 6 章 和 

第 7 章 中 将 通过 实例 展示 这 一 技术 。 从 性 能 角度 看 ， 实 现 重 和 通信 和 计算 通常 是 无 需 代价 的 。 

从 程序 员 的 角度 看 ， 通 信和 计算 的 重 友 可 能 会 复杂 化 程序 的 结构 ， 而 且 有 时 会 采用 非 一 般 的 

方式 。 

宛 余 计算 减少 通信 代价 的 另 一 种 方法 是 执行 元 余 计算 ， 即 在 本 地 重新 计算 一 个 值 ， 而 不 

是 等 待 该 值 从 别处 传输 过 来 。 例 如 ， 在 第 2 章 中 我 们 观察 到 由 所 有 进程 本 地 产生 的 随机 数 r 优 

于 由 一 个 线程 产生 该 值 ， 然 后 使 该 值 与 其 他 线程 共享 。 不 像 重合 通信 和 计算 ， 宛 余 计算 将 带 

来 代价 ， 因 为 所 有 进程 必须 执行 随机 数 生成 代码 。 换 句 话说 ， 我 们 通过 增加 总 的 指令 执行 数 

来 消除 通信 的 代价 。 只 要 宛 余 计算 的 代价 小 于 通信 代价 (对 于 像 产生 随机 数 那样 的 简单 计算 

一 般 均 成 立 ) ， 进 行 宛 余 计算 就 是 值得 的 。 

请 注意 ， 宛 余 计算 也 消除 了 生成 值 的 进程 和 需要 值 的 进程 之 间 的 相关 性 。 因 为 这 种 相关 

性 常常 导致 同步 的 开销 ， 因 此 即使 附加 的 计算 的 代价 和 通信 的 代价 完全 相当 ， 就 消除 相关 性 

而 言 也 是 值得 的 。 在 随机 数 生成 的 情况 中 ， 宛 余 计算 消除 了 一 个 客户 进程 不 得 不 等 待 服务 器 

进程 产生 所 需 值 的 可 能 性 。 对 于 这 种 情况 的 考虑 使 协调 的 评估 更 为 复杂 。 


3.4.2 存储 器 和 并 行 性 


通常 增加 使 用 存储 器 的 代价 可 以 增加 并 行 性 。 在 某 些 情况 下 ， 少 量 的 额外 存储 器 能 显著 
改进 性 能 。( 当 然 ， 我 们 必须 非常 小 心 ， 因 为 存在 一 些 情况 ， 其 中 并 行 计 算 的 主要 益处 是 有 较 
大 的 可 用 存储 器 容量 ， 所 以 我 们 不 希望 丢弃 这 种 益处 。) 

私有 化 ”通过 使 用 附加 的 存储 器 消除 伪 相 关 就 可 增加 并 行 性 。 例 如 ， 在 统计 3 的 个 数 程序 
中 ，private_count 变 量 的 使 用 就 可 消除 线程 在 每 次 遇 到 3 时 所 需 进行 的 交互 ， 其 影响 是 使 count 
的 变量 数 从 1 增加 到 线程 数 :。 这 只 花费 了 很 小 的 存储 器 代价 ， 但 却 因 减 少 相 关 性 而 获得 了 很 
大 的 节省 。 

填充 “也 可 通过 填充 (padding) 增加 并 行 性 ， 填 充 是 指 分 配额 外 的 存储 器 迫使 变量 留 驻 
在 它们 自己 的 cache 行 上 。 在 统计 3 的 个 数 例子 中 ， 我 们 已 看 到 如 何 使 用 填充 来 消除 假 共 享 ， 
当 对 独立 的 不 相关 的 变量 访问 变 成 相关 时 ， 由 于 这 些 独立 变量 被 分 配 在 同一 cache 行 上 就 导致 
这 种 假 共 享 的 出 现 。 我 们 可 以 把 假 共享 看 成 是 伪 相 关 的 一 种 特殊 形式 ， 由 于 消除 假 共享 能 减 
少 线程 间 的 交互 频率 ， 从 而 就 会 使 性 能 获得 显著 的 改进 。 


3.4.3 开销 与 并 行 


并 行 和 开销 通常 是 不 协调 的 。 一 个 极端 是 ， 只 使 用 一 个 线程 使 所 有 并 行 开销 (如 锁 竞 争 ) 
消失 。 增 加 线程 数 时 ， 并 行 性 就 会 跟着 增加 ， 但 开销 和 竞争 也 会 同时 增加 。 如 果 在 增加 线程 
数 时 固定 求解 问题 的 规模 ， 那 么 每 个 线程 在 同步 之 间 所 完成 的 工作 就 会 减少 ， 使 得 同步 占据 
了 整个 计算 的 大 部 分 。 每 个 线程 只 负责 处 理 较 小 的 问题 规模 也 隐 含 着 只 有 较 少 的 计算 可 与 通 
信 重生， 这 就 会 增加 数据 的 等 待 时 间 。 

正 是 并 行 的 开销 通常 影响 了 处 理 器 数 P 无 限制 增长 所 带 的 好 处 。 的 确 ， 即 使 计算 可 以 在 概 
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念 上 分 配 一 个 处 理 器 专门 对 一 个 数据 点 进行 计算 ， 但 通常 在 P = n 之 前 就 因为 开销 过 大 而 被 迫 
放弃 。 因 此 ， 对 于 给 定 的 输入 规模 ， 我 们 发 现 大 多 数 程序 有 一 个 上 限 ， 过 了 上 限 之 后 每 一 个 
附加 处 理 器 的 增益 值 趋向 0， 即 是 说 ， 增 加 更 多 的 处 理 器 将 不 会 有 任何 益处 。 下 面 我 们 评价 三 
个 开销 和 并 行 性 之 间 的 协调 。 

并 行 化 开销 ”在 统计 3 的 个 数 例子 中 ， 各 个 线程 最 初 使 用 一 个 全 局 变量 来 累加 每 个 线程 的 
Priv_count， 如果 线程 数 很 大 ， 则 最 后 的 累加 将 成 为 瓶颈 。 一 个 简单 的 解决 方法 是 使 用 树 求 和 
方法 ， 此 时 线程 成 对 组 合 它们 的 priv_count 值 。 其 实质 是 ， 线 程 将 累加 中 间 值 的 任务 分 成 为 几 
个 独立 的 并 行 活动 ， 从 而 并 行 化 某 些 开 销 并 减少 了 它 的 成 本 。 

负载 平衡 和 开销 增加 并 行 性 也 能 改进 负载 平衡 ， 因 为 均匀 地 分 布 大 量 细 粒 度 工作 单位 要 
比 均匀 地 分 布 少量 粗 粒度 工作 单位 更 加 容易 。 过 度 分 解 问题 的 思想 特别 适合 于 工作 量 不 规则 
或 动态 变化 的 那 种 计算 。 此 时 ， 很 难 精确 地 决定 向 每 个 处 理 器 分 配 多 少 工作 ， 因 此 对 问题 进 
行 过 度 分 解 就 有 更 大 的 可 能 性 使 所 有 处 理 器 处 于 繁忙 状态 。 当 然 ， 过 度 分 解 的 缺点 是 将 增加 
开销 ， 且 通常 是 增加 通信 或 同步 。 

粒度 协调 上 面 许多 的 协调 是 与 并 行 粒度 相关 的 。 减 少 相关 性 数 的 一 种 方法 是 增加 交互 
的 粒度 。 批 处 理 是 一 种 程序 设计 技术 ， 在 这 种 技术 中 工作 以 组 为 单位 完成 。 例 如 ， 与 其 每 次 
传送 数组 的 单个 元 素 ， 不 如 更 有 效 地 每 次 传送 数组 中 的 整 行 或 整 列 ， 与 其 每 次 从 任务 队列 中 
抓 取 一 个 任务 ， 不 如 每 次 抓 取 几 个 任务 以 减少 竞争 。 批 处 理 增加 了 交互 的 粒度 ， 从 而 减少 了 
它们 的 交互 频率 。 

很 自然 粒度 带 来 的 好 处 能 增加 到 何 种 程度 会 有 一 个 限制 。 最 佳 的 粒度 常常 依赖 于 算法 
的 特征 和 硬件 的 特征 。 当 填充 priv_count 数 组 以 避免 假 共享 时 ， 我 们 已 经 看 到 匹配 数据 结构 的 
粒度 和 底层 硬件 的 优点 。 在 那 种 情况 下 ， 解 决 方案 没有 直接 采用 减少 并 行 性 的 方法 ， 但 增加 
粒度 的 通常 结果 是 减少 了 并 行 性 。 一 般 而 言 ， 当 系统 具有 高 的 通信 和 同步 时 延 时 值得 采用 粗 
粒度 计算 ， 因 为 它 在 充分 开发 可 用 并 行 性 的 同时 尽 可 能 多 地 避免 了 交互 。 

函数 程序 的 并 行 化 由 于 纯 函数 语言 提供 了 访问 (参考 ) 的 透明 性 ， 即 一 个 表达 式 的 值 

不 会 随时 间 发 生变 化 ， 一 个 表达 式 的 子 表达 式 能 以 任意 顺序 求 值 而 不 影响 其 结果 ， 因 

此 地 数 式 程序 能 提供 丰富 的 并 行 性 。 的 确 ， 函 数 程序 并 行 化 领域 有 很 长 的 研究 历史 ， 

但 在 本 章 中 我 们 已 表明 我 们 更 多 地 是 关心 如 何 获得 良好 并 行 性 能 而 不 是 简单 地 识别 并 

行 性 : 我 们 必须 小 心地 管理 线程 间 数 据 的 移动 和 交互 ， 我 们 还 必须 小 心地 选择 一 个 合 

适 的 并 行 粒度 。 所 以 ， 虽 然 柬 数 式 语言 能 使 识别 大 量 的 细 粒 度 的 并 行 性 变 得 非常 简单 ， 

但是 函数 式 语言 没有 提供 控制 局 部 性 、 粒 度 以 及 跨 线程 的 相关 性 的 机 制 。 就 局 部 性 而 

言 ， 函 数 式 语言 抽象 摔 存 储 单 元 的 概念 ， 从 而 使 得 程序 员 或 编译 器 很 难 推 上 断 局 部 性 ， 

束 粒 度 而 言 ， 函 数 式 语言 虽然 能 够 为 每 一 个 阵 数 子 表达 式 派生 一 个 新 线程 ， 可 是 在 新 

线程 完成 很 少 工作 后 就 必须 与 另 一 线程 进行 同步 ;在 这 些 情况 中 ， 额 外 的 线程 开销 可 

能 超过 了 所 有 从 并 行 所 获得 的 性 能 。 不 走 的 是 ， 很 难 知道 组 合 哪些 表达 式 来 创建 更 总 

术 度 的 线程 。 最 后 ， 如 果 没 有 能 力 推断 局 部 性 或 粒度 ， 则 推断 跨 线程 的 相关 性 也 将 非 

常 困难 。 


3.5 性 能 度量 
如 我 们 所 看 到 的 ， 当 论 及 并 行 计算 时 ， 性 能 的 概念 就 变 得 复杂 ， 因 为 此 时 必须 多 方面 加 


54 第 一 部 分 BH th 


以 考虑 ， 包 括 存储 器 使 用 、 处 理 时 间 以 及 开销 。 毫 不 奇怪 ， 正 确 的 使 用 性 能 指标 包含 着 许多 
微妙 之 处 。 我 们 现在 讨论 几 个 性 能 指标 重点 在 于 了 解 它们 的 优 缺 点 。 


3.5.1 执行 时 间 


也 许 最 为 直观 的 指标 是 执行 时 间 ， 也 称 为 时 延 。 它 的 简单 定义 是 指 从 第 一 个 处 理 器 开始 
执行 程序 到 最 后 一 个 处 理 器 完成 执行 所 花费 的 时 间 。 我 们 将 在 第 11 章 中 再 次 讨论 这 个 定义 ， 
就 会 发 现 它 比 我 们 想象 的 更 要 复杂 。 

另 一 个 常用 的 指标 是 FLOPS ， 即 每 秒 浮 点 操作 数 (floating-point operations per second) 
的 缩写 。 在 科学 计算 中 ， 通 常用 FLOPS 作 为 指标 数字 ， 并 以 单 精 度 或 双 精 度 报 告 。 使 用 
FLOPS 指 标的 一 个 明显 不 足 是 它 忽 略 了 如 整数 计算 那样 的 其 他 成 本 ， 而 整数 计算 可 能 也 是 计 
算 时 间 的 主要 成 分 。 也 许 更 重要 的 是 FLOPS 速 率 常常 会 受 特别 低级 程序 修改 的 影响 ， 这 种 修 
改 人 允许 程序 开发 硬件 的 专门 特性 ， 例 如 组 合 的 乘 /加 。 这 种 “改进 ”对 其 他 计算 或 相同 计算 的 
其 他 计算 机 来 讲 几 乎 没有 什么 通用 性 。 

上 面 所 论述 的 两 个 指标 ， 它 们 的 一 个 共同 局 限 是 将 所 有 性 能 浓缩 成 一 个 数字 ， 而 对 计算 
的 并 行 行为 则 没有 任何 指示 。 而 我 们 经 常 希望 能 了 解 改变 可 用 并 行 性 时 程序 的 性 能 是 否 会 成 
比例 地 发 生变 化 。 


3.5.2 加 速 比 


加 速 比 定义 为 顺序 程序 执行 时 间 除 以 计算 同一 结果 的 并 行程 序 的 执行 时 间 。 即 加 束 比 = 
Ts/ Ter, $P, Ts 是 顺序 时 间 ， 而 Te 是 运行 在 P 个 处 理 器 上 的 并 行 时 间 。 加 速 比 经 常 作为 y 轴 而 
作 图 ， 此 时 用 处 理 器 数 作为 zx 轴 ， 如 图 3-5 所 示 。 

加 速 比 展 示 了 许多 并 行程 序 的 典型 特征 ， 增 加 处 理 器 数 时 ， 加 速 比 曲线 会 趋 平 。 这 一 特 
征 是 因为 在 增加 处 理 器 数 的 同时 保持 问题 规模 不 变 的 缘故 ， 它 导致 每 个 处 理 器 的 工作 量 的 减 
D, 由 于 每 个 处 理 器 只 有 少量 的 工作 量 ， 使 得 诸如 开销 等 代价 变 得 更 为 突出 ， 导 致 总 的 执行 
时 间 无 法 线性 地 改进 。 























程序 1 
程序 2 








图 3-5 展示 两 个 程序 性 能 的 典型 加 速 比 图 ， 虚 线 表示 线性 加 速 比 
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3.5.3 超 线性 加 速 比 


有 时 会 出 现 一 种 奇怪 的 现象 ， 即 并 行程 序 能 以 比 顺序 程序 快 P 倍 的 速度 运行 ， 称 为 超 线性 
Mrt (superlinear speedup)。 例 如 ， 图 3-5 中 的 程序 1 ， 当 使 用 8 个 处 理 器 时 就 显示 出 超 线性 
加 速 比 。 

超 线性 加 速 比 似乎 违反 直觉 ， 因 为 作为 加 速 比比 较 基础 的 一 个 顺序 程序 ， 能 很 容易 地 仿 
真 并 行程 序 的 P 个 进程 的 执行 ， 且 执行 时 间 不 会 超过 并 行 执行 时 间 的 P 倍 。 那 怎么 可 能 导致 超 
线性 加 速 比 ? 基本 的 解释 是 并 行程 序 完 成 了 较 少 的 工作 。 最 通常 的 情况 是 ， 并 行 执行 时 所 要 
访问 的 数据 都 驻 留 在 每 个 处 理 器 的 cache 中 ， 而 顺序 执行 时 必须 访问 存储 器 系统 中 较 慢 的 部 分 ， 
因为 此 时 数据 无 法 全 都 驻 留 在 单个 cache 中 。 当 然 ， 超 线性 加 速 比 现象 毕竟 是 很 少 的 ， 因 为 存 
储 器 系统 更 有 效 的 使 用 必定 会 克制 所 有 的 并 行 开 销 。 

第 一 种 超 线性 加 速 比 情况 出 现在 当 所 要 查找 的 元 素 已 发 现 因而 终止 搜索 时 。 当 搜索 以 并 
行 方式 进行 时 ， 能 以 不 同 的 次 序 有 效 地 进行 ， 意 味 着 总 的 被 搜索 数据 量 将 少 于 顺序 搜索 的 情 
总 。 因 此 ， 并 行 执行 将 完成 较 少 的 工作 。 


3.5.4 效率 


效率 是 对 加 速 比 的 规格 化 衡量 ， 由 它 表 明 每 个 处 理 器 的 有 效 使 用 情况 ， 效率 = mP, 
理想 效率 1 指明 是 线性 加 速 比 ， 且 表明 所 有 处 理 器 极 尽 全 力 在 工作 。 由 于 存在 各 种 性 能 损失 源 ， 
通常 效率 总 是 小 于 1， 且 随处 理 器 数 的 增加 而 减 小 。 在 超 线 性 加 速 比 的 情况 下 会 出 现 效率 大 于 1 


3.5.5 加 速 比 问题 


由 于 加 速 比 是 两 个 执行 时 间 的 比 ， 所 以 它 是 一 个 无 量 纲 的 指标 ， 这 就 显得 加 速 比 似乎 未 
将 诸如 处 理 器 速度 等 技术 细节 考虑 在 内 。 与 此 相反 ， 这 些 细节 会 微妙 地 影响 加 速 比 ， 所 以 我 
们 必须 小 心地 解读 加 速 比 的 数字 。 以 下 是 几 个 需要 考虑 的 因素 ， 

硬件 首先 ， 我 们 应 意识 到 对 不 同 代 的 机 器 进行 加 速 比 的 比较 是 很 困难 的 ， 即 使 它们 有 相 
同 的 系统 结构 。 问 题 在 于 一 个 并 行 机 器 的 不 同 部 分 一 般 不 是 等 量 改进 的 ， 从 而 会 改变 它们 的 
相对 重要 性 。 例 如 ， 处 理 器 性 能 的 增加 是 与 时 俱 进 的 ， 但 通信 时 延 的 改进 并 不 以 相同 速度 进 
行 。 因 此 ， 在 一 台新 的 计算 机 上 ， 通 信 时 间 的 减少 会 比 计算 时 间 的 减少 要 小 。 其 结果 是 ， 加 
速 比 的 值 通常 会 随时 间 而 减 小 ， 因 为 一 个 计算 的 通信 成 分 相对 于 处 理 成 分 变 得 更 为 昂贵 ， 

顺序 时 间 下 一 个 问题 与 加 速 比 公式 中 的 分 子 T; 有 关 ， 它 应 该 是 给 定 处 理 器 和 问题 规模 的 
最 快 顺序 求解 时 间 。 如 果 人 为 地 提高 Ts， 就 会 增 大 加 速 比 。 增 加 Ts 的 一 个 微妙 方法 是 对 顺序 和 
并 行程 序 关闭 标量 编译 器 的 优化 。 初 看 起 来 这 一 举动 是 公平 的 ， 因 为 关闭 编译 器 优化 的 举措 
对 两 个 程序 都 进行 了 实施 。 然 而 ， 这 一 改变 将 显著 地 减 慢 了 处 理 器 ， 改 善 了 (相对 而 言 ) 通 
信和 时 延 。 所 以 在 报导 加 速 比 时 应 说 明 所 用 的 顺序 程序 以 及 编译 器 优化 设置 的 细节 

相对 加 速 比 不 适当 地 增加 加 速 比 的 另 一 个 常见 途径 是 将 并 行程 序 单 处 理 器 运行 性 能 作为 
7s。 在 刻 基 础 上 计算 的 加 速 比 称 为 相对 加 速 比 ， 在 报告 时 应 作 说 明 。 真 实 的 加 速 比 很 可 能 意味 
着 顺序 算法 与 并 行 算法 有 所 不 同 。 而 相对 加 速 比 只 是 简单 地 比较 同一 算法 的 不 同 运行 ， 它 将 
适合 于 并 发 执行 但 非 并 行 的 优化 算法 作为 比较 出 发 点 ， 由 于 存在 并 行 开 销 ， 这 很 可 能 使 运行 
速度 变 慢 ， 导 致 较 高 的 加 速 比 。 应 注意 的 是 ， 在 单 处 理 器 上 精心 编写 的 并 行程 序 有 时 会 比 任 
何 已 知 的 顺序 程序 运行 的 要 快 ， 也 使 它 成 为 最 好 的 顺序 程序 。 在 这 种 情况 下 我 们 获得 的 是 真 
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实 的 加 速 比 而 不 是 相对 加 速 比 ， 而 这 种 情况 应 明确 地 加 以 确认 。 

不 可 能 总 是 回避 相对 加 速度 。 例 如 ， 对 于 大 型 计算 ， 往 往 无 法 衡量 一 个 给 定 问 题 规模 的 
顺序 程序 ， 因 为 此 时 数据 结构 可 能 无 法 全 部 放置 在 存储 器 中 。 在 这 种 情况 下 ， 所 能 报告 的 就 
只 有 相对 加 速 比 。 基 本 的 比较 点 将 是 小 数目 处 理 器 上 的 并 行 计算 ， 而 y 轴 加 速 比 的 绘制 应 以 该 
量 值 按 比例 进行 缩放 。 例 如 ， 如 果 最 小 可 能 运行 的 处 理 器 数 P = 4， 则 用 P = 64 时 的 运行 时 间 
相 除 ， 就 可 在 y = 16 处 显示 正确 的 加 速 比 。 

冷 启动 ” 冷 启动 是 另 一 个 不 经 意 影响 7 的 因素 。 偶 然 获得 大 的 7* 值 的 一 种 简单 方法 是 先 运 
行 顺序 程序 一 次 ， 并 定时 所 有 分 页 情况 和 强制 (必须 ) 的 cache 不 命中 。 一 个 良好 的 习惯 是 将 
一 个 计算 运行 若干 次 ， 但 只 测量 后 面 几 次 的 运行 。 这 就 可 使 c ache“ 热身 ”， 以 使 强制 的 cache 
不 命中 次 数 不 包 含 在 性 能 测量 中 ， 而 不 至 于 复杂 化 我 们 对 程序 加 速度 的 理解 。( 当 然 ， 如 果 程 
序 存在 冲突 不 命中 ， 则 就 应 计算 在 内 。) 虽然 容易 被 忽略 ， 不 过 冷 启动 很 容易 进行 修正 。 

外 围 负荷 ”更 令 人 不 安 的 是 那些 相当 可 观 的 处 理 器 外 活动 ， 例 如 磁盘 I/O 。 一 次 性 O 突 
发 传输 ， 例 如 读 入 求解 问题 数据 ， 不 会 有 什么 问题 ， 因 为 定时 测量 能 将 其 绕 过 ， 问题 是 处 
理 禹 之 外 的 连续 操作 。 不 但 因为 它们 的 工作 速度 相对 于 处 理 器 来 讲 很 慢 ， 而 且 它 们 一 般 会 
复杂 化 对 计算 的 加 速 比 分 析 。 例 如 ， 如 果 顺 序 和 并 行 求解 不 得 不 完成 源 自 同一 处 的 相同 处 
理 器 之 外 的 操作 ， 则 这 些 操 作 所 需 的 极 大 的 时 间 可 能 完全 掩盖 了 并 行 性 ， 因 为 它们 将 决定 
测量 时 间 。 

在 这 种 情况 下 ， 就 完全 没有 必要 并 行 化 程序 。 如 果 处 理 器 能 独立 地 完成 处 理 器 外 操作 ， 
那么 该 并 行 本 身 就 支配 着 加 速 比 的 计算 ， 很 可 能 相当 完美 。 任 何 包含 处 理 器 外 负荷 的 计算 必 
须 小 心地 控制 其 影响 。 


3.5.6 可 扩展 加 速 比 和 固定 加 速 比 


选择 求解 问题 的 规模 是 一 件 困 难 的 任务 。 通 常 最 直观 的 加 速 比 曲线 是 针对 不 同 处 理 器 数 
时 始终 保持 求解 问题 规模 的 固定 。 然 而 ， 当 处 理 器 数 跨越 的 范围 很 大 时 ， 固 定 规模 的 加 速 比 
就 有 了 问题 ， 因 为 当 问题 规模 小 到 足以 放 人 一 个 处 理 器 的 存储 器 中 时 ， 面 对 使 用 几 百 或 几 千 
个 处 理 器 时 就 会 很 容易 显得 过 小 而 不 合理 。 主 要 问题 在 于 ， 并 行 计 算 的 效率 通常 依赖 于 问题 
的 规模 ， 因 此 ， 国 定 问题 规模 很 可 能 偏向 于 某 个 特定 的 处 理 器 数 。 

一 个 明显 的 答案 是 随处 理 器 数 的 增多 扩大 求解 问题 的 规模 ， 所 以 运行 在 4 个 处 理 器 系统 上 
的 问题 规模 应 是 两 倍 于 运行 在 2 个 处 理 器 系统 上 的 问题 规模 。 即 使 是 这 种 情况 ， 也 不 总 能 清楚 
“两 倍 于 ”的 真正 含义 ， 因 为 大 多 数 计算 的 渐 近 复杂 性 不 是 按 线性 增长 的 。 此 外 ， 存 储 器 和 通 
信和 需求 并 不 总 是 按 计算 需求 的 相同 速率 增长 ， 所 以 我 们 对 问题 规模 的 任何 改变 都 将 可 能 导致 
存储 器 子 系统 、 计 算 能 力 或 通信 基础 设施 相对 重要 性 的 变化 。 


3.6 可 扩展 性 能 


使 用 更 多 的 处 理 器 就 能 改善 性 能 这 种 想法 是 天 真 的 。 这 种 错误 观点 随 着 并 行 计算 机 中 的 
处 理 器 数 增长 的 报道 可 能 已 被 进一步 的 扭曲 。 并 行 计算 机 趋向 于 使 用 更 简单 和 功能 不 很 强 的 
处 理 器 ， 这 意味 着 处 理 器 数 比 处 理 器 本 身 的 功能 强 弱 更 为 重要 。 确 实 ， 已 经 有 预测 ， 未 来 的 
多 核 计 算 机 将 使 用 比 目 前 简单 得 多 的 CPU。 这 一 小 节 在 讨论 有 关 可 扩展 性 能 的 几 个 问题 时 ， 
将 考虑 这 些 硬 件 发 展 趋向 的 动机 。 
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3.6.1 难于 达到 的 可 扩展 性 能 


首先 说 明 可 扩展 性 能 难于 达到 ， 因 为 当 增加 P 时 ， 要 达到 高 的 并 行 效率 就 越 加 困难 。 为 便 
于 说 明 ， 假 想 一 个 算法 ， 如 一 个 按 字母 次 序 排序 的 并 行 算法 ， 在 该 算法 中 ， 用 一 个 进程 负责 
排序 所 有 以 相同 字母 开始 的 词 ， 其 排序 过 程 如 下 ， 

a. 从 最 初 的 数据 结构 中 移出 以 给 定 字 母 开头 的 所 有 词 ， 

b. 将 它们 局 部 排序 ， 

c. 在 全 体 排序 时 将 它们 放 回 到 合适 位 置 。 

如 果 可 用 的 处 理 器 数 小 于 26 个 ， 则 每 个 处 理 器 要 处 理 多 个 字母 。 (我 们 将 在 第 4 章 看 到 这 种 
计算 的 更 多 细节 。) a 和 c 两 部 分 是 并 行 开销 ， 因为 b 足 以 顺序 地 求解 此 问题 。 乐 观 (不 现实 ) 地 
假设 当 增加 处 理 器 数 时 开销 的 总 量 将 保持 不 变 ， 并 假设 在 一 个 处 理 器 上 执行 时 的 开销 为 20%。 

假定 局 部 按 字 母 顺序 排序 (b) 所 需 的 顺序 计算 时 间 为 T;。 因为 20% 开 销 是 不 可 并 行 化 的 ， 
因此 在 两 个 处 理 器 上 的 并 行 求解 将 需 时 7， 

五 = +021, 





-五 
10 
使 用 两 个 处 理 器 的 效率 为 ， 
五 w 
已 = 卫 -= 了 -5-071 
2 2 7 
使 用 10 个 处 理 器 时 ， 执 行 时 间 为 ， 
T= so27, «3% 
因此 ，10 个 处 理 器 的 效率 为 : 
10 
Eo = 5 =033 
对 于 100 个 处 理 器 ， 则 有 : 
Tw = 240.21, = 218 
100 100 
100 
21 
=<! =~ =0.047 
I 100 21 


这 样 ， 对 于 100 个 处 理 器 情况 ， 每 个 处 理 器 只 有 4.7% 时 间 在 进行 有 用 的 工作 ! 这 一 极 低 的 效率 
表明 增加 更 多 处 理 器 的 好 处 随处 理 器 数 的 增加 而 减少 。 这 就 突出 了 采用 大 规模 并 行 系统 时 使 
开销 最 小 化 的 重要 性 。 


3.6.2 硬件 问题 


以 上 的 例子 说 明 为 什么 我 们 能 在 增加 处 理 器 数 时 使 用 功能 不 很 强 的 处 理 器 ， 随 着 处 理 器 
数 的 增加 ， 改进 每 个 处 理 器 的 CPU 速度 可 获得 的 好 处 是 很 小 的 。 换 名 话说， 使 用 较 慢 的 核 会 
使 不 可 并 行 化 的 部 分 在 整个 计算 中 所 占有 的 比例 更 小 ， 按照 阿 姆 达 尔 定律 的 提示 ， 使 用 较 慢 
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的 核 我 们 反而 能 获得 更 好 的 加 速 比 和 效率 。 因 此 ，P = 64K 的 BlueGene/L 使 用 相对 较 慢 的 处 
理 器 (与 第 2 章 中 所 描述 的 其 他 机 器 相 比 ) 是 有 道理 的 。 


3.6.3 软件 问题 


如 前 面 所 提 及 的 ， 减 少 开销 的 一 个 常用 方法 是 成 批 完成 任务 ， 这 种 方式 通过 增加 每 个 进程 
的 本 地 工作 量 从 而 减少 与 其 他 进程 交互 所 花费 的 时 间 来 增 大 粒度 。 批 处 理 对 算法 的 好 处 犹如 有 具 
有 好 的 “表面 积 对 体积 的 比 ”"。 例 如 ， 一 个 算法 在 m x mm 数据 数组 上 进行 本 地 计算 ， 并 与 其 他 线 
程 或 进程 沿 二 维 数组 的 边 进行 通信 ， 它 的 通信 代价 将 随 m 线 性 地 增长 ， 而 计算 代价 则 将 按 m 的 2 
次 方 增长 。 此 外 ， 随 着 m 值 的 增长 ， 就 会 有 更 多 的 机 会 实施 时 延 隐藏 技术 ， 如 重 又 通信 与 计算 。 

减少 开销 的 需要 提示 我 们 对 于 具有 许多 处 理 器 的 并 行 计算 机 系统 ， 很 重要 的 一 点 是 需要 
针对 机 器 的 专门 特性 进行 优化 。 例 如 ， 仔 细 考 虑 开销 与 并 行 性 这 一 小 节 中 已 概要 介绍 的 并 行 
累加 私有 和 的 概念 。 当 处 理 器 的 数目 增加 时 ， 在 通信 代价 和 计算 代价 之 间 需 要 进行 协调 : A 
有 低 扇 出 度 的 组 合 树 会 比较 高 ， 将 导致 较 大 的 通信 时 延 ， 而 具有 高 扇 出 诬 的 组 合 树 将 在 树 的 
每 个 结 点 上 需要 完成 更 多 的 计算 量 。 仅 当 处 理 器 数 相 当 大 时 ， 这 种 协调 才 会 变 得 比较 重要 。 

较 大 问题 规模 会 产生 较 好 并 行 性 能 的 概念 隐 含 在 半 性 能 指标 中 ， 记 为 maz， 对 于 给 定 的 程 
序 和 机 器 ， 它 衡量 为 获得 二 分 之 一 的 效率 时 所 需 的 输入 大 小 。 


3.6.4 问题 规模 的 扩展 


分 析 效 率 时 假设 当 我 们 增加 处 理 器 数 时 问题 的 规模 将 保持 不 变 。 然 而 ， 当 使 用 更 多 功能 
更 强 的 处 理 器 时 ， 常 常 希望 增加 问题 的 规模 。 因 此 ， 在 忽略 存储 器 的 约束 并 假设 有 理想 加 速 
度 的 情况 下 ， 考 虑 并 行 性 是 如 何 影响 问题 规模 的 。 

对 于 一 个 运行 时 间 为 0(n?) 的 顺序 算法 ， 我 们 有 

T = cn* 

ROR BAe EOE FAP 7S be 2 EAR A AB, PIT, MA 
mn) _ os 

P 


T 


求解 m， 可 得 : 
(mny = Pw 
m n* = Pn* 
m = .PU 
因此 ， 对 于 渐 近 复杂 性 为 O(n) 的 求解 问题 ， 如 果 将 该 问题 的 规模 扩大 100 后 ， 就 需要 
100 000 000 (一 亿 ) 个 处 理 器 ! 与 之 相 比 较 ， 对 于 渐 近 复杂 性 为 002) 的 求解 问题 ， 如 果 将 该 问题 
的 规模 扩大 100 后 ， 我 们 仍 需 要 10 000 个 处 理 器 ， 但 车 渐 近 复杂 性 是 线性 的 ， 则 仅 需 要 100 个 处 理 器 。 
由 此 获得 的 教训 是 ， 基 本 算法 应 尽 可 能 是 可 扩展 的 ， 而 简单 地 增加 更 多 的 处 理 器 数 不 会 改变 这 一 事 
实 ， 反 使 问题 会 变 得 更 麻烦 。 这 一 论点 被 称 作 过 当 潜 力 推论 (corollary of modest potential)。 
面 对 众 核 的 挑战 目前 的 芯片 多 处 理 器 含有 的 核 数 较 少 ， 但 架构 师 们 已 在 讨论 有 几 十 或 
几 百 个 处 理 器 的 众 核 (many-core) 机 器 。 综 合 本 节 和 在 第 2 章 中 所 学 到 的 知识 ， 可 以 看 
到 众 核 的 概念 面临 许多 问题 。 首 先 ， 当 核 数 增长 时 ， 核 间 的 通信 时 延 也 将 增长 。 由 于 
时 廷 的 增长 ， 我 们 就 希望 实现 更 大 粒度 的 并 行 。 因 此 ， 在 众 核 芯片 上 ， 理 想 地 希望 执 
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行 许多 独立 的 进程 ， 但 是 由 于 有 限 的 RAM 和 芯片 之 间 的 总 带宽 ， 将 使 这 一 希望 很 难 实 
现 。 另 一 方面 ， 如 果 核 在 数目 较 少 的 并 行 任务 上 合作 ， 可 以 看 到 效率 将 会 成 为 问题 ， 
除非 我 们 能 够 扩展 问题 的 规模 。 不 论 是 那 一 种 情况 ， 有 效 使 用 大 量 核 的 最 好 方法 是 使 
存储 器 具有 很 大 的 总 带宽 ,但 这 受 限 于 多 核 芯 片 的 物理 尺寸 。 


3.7 小 结 


在 本 章 中 已 经 看 到 ， 单 纯 增加 并 行 性 不 会 直接 导致 性 能 的 增加 ， 这 里 的 增加 性 能 是 指 减 
少时 延 或 增加 吞吐 率 。 我 们 还 看 到 并 行 性 能 的 概念 是 很 复杂 的 ， 因 为 存在 许多 性 能 的 相互 影 
响 方面 : 存储 器 消费 量 ， 处 理 器 利用 率 ， 同 步 ， 通 信 代 价 。 因 此 ， 要 改善 性 能 我 们 通常 需要 
在 这 些 方面 进行 不 同 的 协调 ， 以 达到 我 们 增加 局 部 性 、 减 少 跨 线程 相关 性 以 及 控制 粒度 的 综 
合 目标 。 最 后 ， 对 于 给 定 的 并 行 性 能 复杂 性 ， 应 意识 到 在 评估 性 能 和 选择 性 能 指标 时 存在 许 
多 细微 的 差别 。 


历史 回顾 


本 章 的 主题 涉及 贯穿 整个 并 行 计算 历史 中 所 研究 的 主要 部 分 ， 所 介绍 的 词汇 和 概念 实际 
上 在 每 一 篇 文章 中 都 会 出 现 。 阿 姆 达尔 定律 在 阿 姆 达 尔 1967 年 的 文章 中 提出 ， 关 于 这 -一 概念 
后 来 又 有 很 多 文献 。 靖 2 性 能 指标 是 由 Roger W.Hockney 于 1977 年 在 评估 向 量 计算 机 性 能 时 首 
先 引 入 的 ， 有 关 的 精彩 分 析 可 参见 Hockney 和 Jessoup [1988] 的 文章 。 适 当 潜 力 推论 是 由 
Snyder[1986] 描 述 。 


习题 


.在 事务 存储 器 系统 中 ， 乐 观 地 假设 线程 不 会 访问 可 能 引起 与 其 他 线程 冲突 的 共享 数据 。 如 果 没 
有 检测 出 访问 违例 事务 就 成 功 提交 ， 否 则 事务 就 回 滚 。 识 别 事务 存储 器 系统 中 的 各 种 性 能 损失 
源 ， 按 开销 、 竞 争 或 闲置 时 间 对 它们 进行 分 类 。 

.竞争 应 视 为 是 开销 的 一 种 特殊 情况 吗 ? 说 明理 由 。 

` 闲置 时 间 应 视 为 是 开销 的 一 种 特殊 情况 吗 ? 在 单线 程 程序 中 会 有 闲置 时 间 吗 ?说 明理 由 。 

` 阿 姆 达尔 定律 认为 一 个 计算 中 的 顺序 代码 的 比例 决定 了 它 的 并 行 加 速 比 的 法力。 那么 超 线性 加 
速 比 可 能 性 与 该 结论 冲突 吗 ? 说 明理 由 。 

. 请 描述 一 种 并 行 计算 ， 要求 它 的 加 速 比 将 不 会 随 问题 规模 的 增长 而 增加 。 

.假定 一 个 并 行 计 算 有 5% 的 开销 ， 试 计算 使 用 128 个 处 理 器 时 的 效率 ， 假 设 当 处 理 器 数 增加 时 开 
销 保持 不 变 。 

.大 多 数 并 行 密集 矩阵 乘法 程序 所 使 用 的 算法 需 完成 必 算 术 操作 。 使 用 求解 问题 规模 扩展 这 一 节 中 
的 推理 ， 则 为 了 使 矩阵 乘法 的 性 能 改进 10 倍 需 使 用 多 少 处 理 器 ? 

8. 图 3-3 中 说 明了 哪 种 相关 性 ? 

9. 在 开销 与 并 行 性 这 一 节 中 曾 断 言 :“… 大 多 数 程 序 有 一 个 上 限 [针对 每 一 种 数据 规模 ]， 此 后 附加 
处 理 器 的 得 益 值 将 趋向 于 0…。” 描 述 在 此 上 限时 这 种 计算 的 加 速 比 曲线 。 

10. 在 开销 与 并 行 性 这 一 节 中 介绍 了 使 用 树 来 累加 priv_counts 以 改进 统计 3 的 个 数 程序 的 性 能 。 设 

计 一 个 新 程序 进行 统计 3 的 个 数 和 寻找 最 小 和 最 大 值 ， 仍 使 用 树 累加 方法 。 说 明 如 何在 新 程序 
中 使 用 批 处 理 的 概念 以 避免 完成 三 个 连续 的 基于 树 的 累加 。 
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由 于 第 一 部 分 已 为 我 们 打下 良好 的 基础 ， 现 在 来 探讨 创建 高 效 并 行 算法 的 方法 ， 这 种 算 
法 的 并 行 度 能 随 着 可 用 处 理 器 数 的 增多 而 扩展 。 我 们 将 展示 一 些 成 功 的 算法 ， 并 概要 介绍 针 
对 不 同 计算 场合 提升 并 发 性 的 原理 。 

为 了 确切 地 阐述 算法 技术 ,我们 将 介绍 一 种 编写 并 行程 序 的 伪 代 码 。 伪 代码 是 描述 算法 
的 简化 和 非 正式 记 法 ， 在 算法 的 教科 书 中 经 常 使 用 。 伪 代码 在 展示 、 讨 论 以 及 分 析 算 法 时 不 
会 偏向 某 一 特定 的 程序 设计 语言 ， 而 且 不 会 为 不 重要 的 细节 而 分 心 。 用 伪 代 码 表示 的 算法 对 
我 们 人 类 而 言 在 概念 上 是 一 个 完整 的 程序 ， 虽然 对 计算 机 并 非 如 此 。 然 而 ， 一 旦 理解 了 一 个 
算法 ， 用 成 熟 的 程序 设计 语言 加 以 实现 就 非常 直截了当 ， 此 时 计算 机 就 能 理解 该 算法 。 在 第 
二 部 分 中 ， 我 们 将 努力 使 读者 对 并 行 化 计算 策略 建立 直观 认识 。 并 行程 序 的 开发 经 常 需要 判 
断 何 时 应 开发 并 行 性 以 及 何 时 不 予 开 发 ， 因 为 此 时 如 果 硬 要 开发 则 可 能 导致 过 高 的 代价 ， 而 
与 可 能 获得 的 性 能 增益 相 比 是 得 不 偿 失 的 。 我 们 通过 介绍 有 关 数 据 分 配 、 工 作 分 配 、 数 据 结 
构 设 计 以 及 算法 的 技术 建立 这 种 认识 ， 而 这 些 技术 已 经 过 充分 的 检验 。 这 种 知识 是 从 事实 际 
程序 设计 的 理想 资源 ， 我 们 将 在 后 面 几 章 加 以 论述 。 


第 4 章 并 行程 序 设计 起 步 


要 成 为 得 力 的 并 行程 序 员 ， 我 们 必须 学 习 表达 诸如 算法 和 数据 结构 等 基本 并 行 概念 。 我 
们 还 必须 学 习 如 何 分 析 程 序 以 确定 它们 的 运行 时 间 和 存储 器 使 用 ， 我 们 在 第 11 章 中 将 对 这 一 
主题 进行 讨论 。 就 此 刻 而 言 ， 也 许 最 重要 是 要 获得 一 种 思考 能 力 以 使 得 所 设计 的 算法 能 很 好 
地 匹配 可 用 的 语言 和 计算 机 。 我 们 将 从 介绍 两 种 并 行 计算 的 类 型 开始 。 然 后 将 介绍 描述 并 行 
算法 的 符号 ， 并 使 用 这 种 符号 去 研究 构造 并 行 计算 的 三 种 方法 : 无 限 并 行 性 、 固 定 并 行 性 以 
及 可 扩展 并 行 性 。 然 后 我 们 用 一 个 按 字母 顺序 排序 的 例子 比较 上 述 三 种 方法 的 有 效 性 。 


4.1 数据 和 任务 并 行 


并 行 计 算 通常 可 被 分 为 两 种 主要 类 型 :数据 并 行 和 任务 并 行 。 这 两 个 术语 将 指导 我 们 考 
虑 并 行 算法 的 设计 。 


4.1.1 定义 


已 经 提出 了 许多 有 关 数 据 和 任务 并 行 的 定义 ， 但 我 们 采用 以 下 的 定义 ， 因 为 它们 能 区 别 
两 种 考虑 并 行 化 的 方法 ， 即 我 们 是 要 并 行 化 数据 还 是 代码 ? 

“数据 并 行 计算 是 指 同时 对 不 同 数据 项 完成 相同 操作 的 并 行 ， 并 行 量 将 随 数据 规模 而 增长 。 

“任务 并 行 计算 是 指 同时 完成 不 同 计算 或 任务 的 并 行 。 由 于 任务 数 是 固定 的 ， 因 此 它 的 并 

行 性 是 不 可 扩展 的 。 

与 大 多 数 分 类 学 的 结果 类 似 ， 对 计算 的 分 类 不 总 是 清晰 的 。 许 多 计算 是 混合 式 的 ， 比 如 
由 一 个 固定 的 任务 数 复合 而 成 ， 而 其 中 某 些 任务 可 能 是 数据 并 行 的 。 即 使 当 计 算 不 能 很 明确 
地 归于 两 类 中 的 哪 一 类 ， 术 语 可 以 为 我 们 提供 了 解 其 组 成 部 分 的 手段 。 


4.1.2 数据 和 任务 并 行 的 说 明 


为 了 强调 这 两 种 并 行 类 型 的 不 同 ， 让 我 们 考虑 准备 一 个 宴会 的 工作 。 

数据 并 行 方 法 将 每 一 道 腾 食 看 成 是 一 个 并 行 单位 ， 因 此 它 使 用 P 个 厨师 制作 入 道 膳食 ， 这 
样 每 个 厨师 要 制作 N/P 道 膳食 。 当 N 值 增加 时 我 们 可 以 增加 P， 如 果 我 们 有 足够 的 资源 ， 如 炉 
子 、 电 冰箱 、 切 板 等 。 

任务 并 行 方法 认为 腾 食 准备 由 许多 任务 组 成 ， 如 准备 开胃 食品 、 色 拉 、 主 食 和 甜食 。 按 
这 种 方法 ， 我 们 只 需 征召 四 个 不 同 厨师 每 人 负责 其 中 一 项 任务 。 当 然 ， 通 过 细 化 任务 还 可 开 
发 附加 的 并 行 性 。 例 如 ， 色 拉 的 准备 可 以 进一步 分 为 清洗 、 切 割 以 及 拼盘 的 子 任务 。 显 然 ， 
在 这 些 子 任务 间 存 在 相关 性 ， 因 为 在 切割 蔬菜 前 必须 先 清洗 ， 而 在 拼盘 色拉 之 前 需 先进 行 切 
割 。 其 结果 是 将 形成 更 大 的 并 行 量 ， 因 为 一 旦 色拉 的 准备 完成 ， 洗 、 切 和 拼 的 操作 就 将 同时 
进行 。 

色拉 准备 的 例子 说 明了 任务 并 行 中 的 一 种 称 为 流水 线 的 重要 类 型 。 在 流水 线 中 ， 一 系列 
任务 以 顺序 方式 求解 ， 在 任 一 时 间 点 ， 每 个 任务 运行 在 问题 的 不 同 场合 ， 而 当 一 个 任务 完成 
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时 ， 就 将 已 完成 的 实例 连续 地 传递 到 下 一 任务 。 在 第 3 章 的 时 延 和 吞吐 率 这 一 节 中 ， 我 们 看 到 
入 理 器 如 何 使 用 流水 线 执行 来 改善 指令 的 吞吐 率 ， 而 这 一 概念 通常 要 应 用 到 一 系列 操作 上 ， 
且 这 些 操作 必须 处 理 许多 实例 。 
也 存在 组 合 数据 和 任务 并 行 两 者 的 混合 求解 。 就 我 们 的 例子 而 言 ， 可 以 先 将 宴会 的 准备 
分 成 若干 任务 ， 然 后 将 数据 并 行 实施 到 每 一 个 任务 上 。 例 如 ， 多 个 厨师 可 以 为 准备 色拉 切割 
蔬菜 ， 从 而 在 切割 任务 中 形成 数据 并 行 。 


4.2 Peril-L 记 号 


顺序 算法 通常 用 某 种 形式 的 擅 代 码 表示 ， 因 为 它 允 许 表 示 核 心 概念 时 无 须 说 明 每 个 细 
。 对 于 并 行 算法 我 们 有 类 似 的 期 望 ， 所 以 我 们 现在 定义 一 种 称 为 Peril-L 的 混合 程序 设计 语 
它 能 用 来 开发 和 分 析 并 行 算法 S。 该 语言 要 能 达到 以 下 的 目标 ， 

“应 尽 可 能 的 小 ， 以 方便 学 习 

* 应 足够 通用 以 使 它 不 会 偏向 任何 一 种 语言 、 并 行 计算 机 或 算法 方法 

* 应 允许 我 们 分 析 性 能 

其 结果 是 ， 只 要 假想 计算 是 在 CTA 模 型 上 执行 的 ，Peril-L 对 在 第 2 章 中 出 现 的 许多 问题 品 
未 出 中 立 。 因 此 ，Peril-L 了 解 本 地 和 全 局 存储 器 访问 时 间 的 差别 1。 因 为 并 行程 序 设计 比 顺序 
程序 设计 有 更 多 的 问题 ， 我 们 将 需要 引入 一 些 通常 在 顺序 伪 代 码 语言 中 并 不 使 用 的 附加 概念 


4.2.1 扩展 C 语 言 


为 了 减少 需要 学 习 的 概念 ，Peril-L 将 扩展 C 程 序 设计 语言 的 基本 计算 功能 ， 我 们 选择 C 的 
理由 是 因为 它 比较 稳定 且 为 我 们 所 熟悉 。 此 外 它 也 比较 原始 ， 允 许 进行 位 处 理 操作 ， 在 我 们 
的 算法 中 侦 尔 需 要 使 用 这 种 位 操作 ， 另 一 方面 ，C 语 言 也 足够 高 层 从 而 在 表达 简单 例子 时 非常 
简洁。 


4.2.2 并 行 线程 


Peril-L 的 计算 世界 开始 二 一 个 顺序 线程 。 使 用 forall 语 名 引入 多 线程 ， 关 于 这 一 点 我 们 已 
在 第 1 章 中 提 及 。Forall 语 名 具有 如 下 形式 ， 其 中 <integer variable> 是 有 关 一 个 整数 变量 的 隐 
式 声明 


forall (<integer variable> in(<index range specification>) ) 


lk 十 


~ 


<body> 
} 


该 语 名 有 如 下 的 语义 对 索引 范围 规范 (index range specification) 求 值 ， 形 成 一 个 索引 
SES. RIISE | S| 个 逻辑 线程 的 名 称 。 5 中 的 每 一 个 线程 :执行 <body> 中 的 代码 拷贝 ， 使 得 在 
该 线程 中 的 <integer variable> 值 为 ;。 当 最 后 到 达 闭 大 括 弧 时 各 线程 便 终 止 。 除 了 由 forall 语 句 
指明 并 行 外 ， 总 是 单线 程控 制 ， 所 以 在 前 面 的 语句 未 完成 之 前 ， 不 会 开始 下 一 个 语 名 的 执行 
MALE, PEARSE, BMRA foreleg DAZ AL, LER, forall AAPL BCR, 
这 只 要 在 另 一 个 forall 语 名 的 <body> 中 放置 一 个 forall 语 旬 即 可 。 

作为 foral 语 名 的 一 个 例子 ， 以 下 的 代码 将 按 某 种 不 确定 的 次 序 打印 12 行 ， 





O ”选择 该 名 称 是 为 了 与 “parallel” 同 音 ， 并 没有 任何 危险 的 含义 。 
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forall(index in(1..12)) 


‘ printf("Hello, World, from thread $i\n", index); 

} 

在 这 个 例子 中 ， 来 自 不 同 线程 的 输出 是 无 法 预知 的 ， 因 为 所 有 线程 虽然 不 是 以 锁 步 方式 ， 
但 在 逻辑 上 它们 是 同时 执行 的 。 的 确 ， 线 程 的 执行 可 能 是 交叉 的 ， 或 是 某 些 线程 已 执行 完毕 
而 其 他 的 线程 可 能 还 未 开始 。 甚 至 这 些 语 句 按 序 的 顺序 执行 也 是 可 能 的 。 其 结果 是 ， 如 果 不 
采用 某 种 方式 的 同步 ， 就 无 法 预测 输出 的 结果 会 是 怎样 的 。 


4.2.3 同步 和 协同 


如 我 们 在 前 面 Hello World 例 子 中 所 看 到 的 ， 在 线程 中 排序 操作 有 时 很 有 用 。 在 Peril-L 中 ， 
由 排 它 块 (exclusive block) 提供 互 斥 。 它 的 语法 如 下 : 

exclusive {<body>} 

其 语义 保证 每 次 只 有 一 个 线程 能 执行 <body>。 如 果 一 个 线程 正在 执行 <body>， 其 他 试图 
执行 <body> 的 线程 就 必须 等 待 。 当 一 个 线程 完成 执行 <body> 后 ， 等 待 的 进程 以 一 个 未 指定 的 
次 序 继续 执行 。 我 们 可 以 用 这 一 构造 来 改进 Hello World 例 子 ， 如 下 : 


forall(index in(1..12)) 
{ 


exclusive 


printf("Hello, World, from thread %i\n", index); 
} 
} 


使 用 exclusive 块 后 ， 上 述 代码 将 完整 地 打印 12 行 ， 但 仍 以 未 指定 的 次 序 出 现 。 另 一 种 方 
法 可 达到 同样 的 效果 ， 即 将 exclusive 块 放 在 printf0 例 程 的 实现 中 。 

第 2 个 工具 是 障 机 同步， 

barrier 

它 仅 在 forall 内 部 起 作用 。barrier 语 句 强 使 线程 停止 直至 所 有 线程 到 达 barrier， 在 此 点 后 它 
们 可 以 继续 前 行 。 例 如 ， 下 面 的 代码 使 用 barrier 以 保证 所 有 的 “tweedle dee” 出 现在 任何 的 
“tweedle dum” “At, © 


forall(index in(1..12)) 


{ 
printf("tweedle dee\n"); 
barrier; 等 待 最 后 一 个 tweedle dee 
printf("tweedle dum\n"); 

} 


Peril-L 还 提供 一 种 完成 细 粒 度 同步 的 方法 ， 但 在 讨论 这 一 机 制 之 前 ， 让 我 们 先 说 明 Peril-L 


4.2.4 存储 器 模型 


为 了 避免 偏向 共享 存储 器 或 非 共享 存储 器 ，Peril-L 语 言 提 供 两 个 地 址 空间 : 一 个 全 局 地 
址 空间 和 一 个 局 部 地 址 空间 。 在 全 局 空间 中 的 变量 可 为 所 有 线程 看 到 ， 而 在 局 部 空间 中 的 变 


© tweedle dee 和 tweedle dum 是 指 难于 区 分 的 两 个 人 或 两 件 事 ， 俗 称 半 斤 八 两 。 一 一 译 者 注 
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量 只 能 为 一 个 线程 所 看 到 。 在 forall 语 名 中 声明 的 变量 将 为 每 个 线程 创建 一 个 本 地 拷贝 ， 而 在 
foral 语 句 外 说 明 的 变量 是 一 个 全 局 变量 ， 可 为 所 有 由 forall 语 名 创建 的 线程 所 看 到 

为 了 与 CTA 模 型 保持 一 致 ,假设 全 局 变量 具有 时 延 4, 而 局 部 变量 可 在 单位 时 间 完 成 访问 。 
相应 地 ，Peril-L 使 用 以 下 的 约定 从 视觉 上 区 分 全 局 变量 和 局 部 变量 ， 

PerilL 命 名 约定 “全 局 变量 使 用 下 划 线 ; 局 部 变量 不 使 用 。 

为 说 明 起 见 ， 考 虑 以 下 的 一 个 程序 ， 计 算数 组 data 中 za 个 数值 的 绝对 值 ， 

int data[n]j; 

forall(index in(0..n-1)) 

‘ if (data[index]<0) 

{ 


data[ index ]=-data[ index]; 

) } 

请 注意 ，PerilL 存 储 器 模型 是 按 逻辑 线程 定义 的 ， 因 此 如 果 有 多 个 线程 被 分 配 到 同 _. 处 
理 络 ， 则 它们 的 局 部 变量 仍 保持 不 同 。 

全 局 存储 器 的 读 和 写 在 Peril-L 存 储 器 模型 中 ， 多 个 线程 能 同时 读 相同 的 全 局 单元 ， 完 成 
所 请 的 并 发 读 。 然 而 ， 每 次 只 能 有 一 个 线程 改变 全 局 单元 的 内 容 。 如 果 两 个 线程 写 同一 个 单 
元 ， 则 存储 在 该 单元 的 值 定义 为 最 后 写 人 的 值 ， 但 是 由 于 其 定时 无 法 知道 ， 因 此 最 后 的 结果 
是 未 知 的 。 当 变量 的 值 为 未 知 时 ， 分 析 程序 的 正确 性 通常 就 很 困难 ， 所 以 我 们 建议 在 没有 庄 
如 exclusive 语 名 的 保护 机 制 时 ， 多 个 线程 不 要 同时 写 同一 个 全 局 变量 ， 

在 上 面 的 例子 中 ， 线 程 同时 读 和 写 全 局 数据 数组 data， 但 是 因为 每 个 线程 只 访问 对 应 于 它 
的 索引 值 的 项 ， 因 此 永远 不 会 发 生 并 发 读 和 并 发 写 。 

ÈE, 取决 于 所 使 用 的 硬件 ,使 用 全 局 存储 器 同时 访问 的 性 能 影响 可 能 超过 标准 的 代价， 
因为 在 某 些 硬件 中 访问 需 顺 序 地 进行 。 

连接 全 局 和 本 地 (局 部 ) 存储 器 因为 CTA 模 型 没有 全 局 存储 器 ， 所 以 全 局 的 数据 结构 就 
分 布 在 所 有 处 理 器 的 本 地 存储 器 中 ， 全 局 寻 址 是 借助 将 全 局 地 址 转换 成 指定 处 理 器 的 恰当 本 
地 地 址 而 实现 的 。 

我 们 通常 希望 所 设计 的 算法 能 运行 在 部 分 全 局 数据 结构 上 ， 而 这 部 分 已 被 局 部 地 分 配给 
一 个 指定 的 线程 ， 为 此 ， 需 要 一 种 方法 以 一 个 本 地 名 引用 已 全 局 命名 的 数据 。 在 PerilL-L 中， 
localize0 函 数 将 被 用 作 此 目的 ， 我 们 可 用 它 初始 化 本 地 数据 结构 。 例 如 ， 


int alldata[n], 声明 全 局 数据 结构 
forall (threadID in (0...P-1)) 派生 线程 
{ 

int size = n/ P; 计算 局 部 分 配 的 大 小 


int locData[size]= localize (allData []), 映射 全 局 到 该 线程 的 局 部 


} 

calize() 图 数 返回 一 个 对 部 分 全 局 数据 结构 的 访问 ， 该 部 分 已 分 配给 执行 该 线程 的 处 理 
EEs 此 后 ， 所 有 使 用 局 部 名 对 本 地 数据 结构 的 修改 等 同 于 无 1 代价 的 全 局 数据 结构 修改 、 

,0calize0 函 数 很 有 用 ， 因 为 它 允许 我 们 在 创建 算法 时 无 须知 道 全 局 数据 如 何在 处 理 器 中 
分 配 的 细节 。 同 时 ， 它 还 允许 我 们 编写 运行 在 本 地 数据 上 的 算法 ， 
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关于 全 局 存储 器 的 本 地 化 有 三 个 重要 的 问题 : 

1. 含有 本 地 化 数据 的 数组 使 用 本 地 索引 ， 所 以 不 管 它们 的 全 局 索引 值 是 什么 ， 本 地 数组 
的 第 1 项 的 索引 值 为 0。 

2. 如 果 有 多 个 线程 被 分 配 到 一 个 处 理 器 ， 则 localize() 函 数 对 每 个 线程 分 配 全 局 数据 结 
构 ， 即 每 个 线程 只 运行 在 分 配给 它 的 那 部 分 全 局 数据 结构 上 。 

3. 不 存在 本 地 拷贝 一 一 全 局 和 本 地 访问 都 指向 同一 存储 单元 。 

根据 第 3 点 ， 通 常 比较 明智 的 做 法 是 不 要 对 数据 结构 混合 进行 全 局 和 本 地 的 访问 ， 除 非 已 
设置 了 某 种 类 型 的 同步 。 例 如 ， 线 程 可 以 建立 保护 的 全 局 访问 ， 并 通过 调用 localize() 函 数 进 
行 本 地 访问 。 这 种 预防 有 助 于 一 致 性 存储 器 映像 的 实现 。 

拥有 者 计算 规则 localizeO 函 数 能 形成 一 种 称 为 拥有 者 计算 的 数据 并 行程 序 设计 风格 。 

其 思想 是 向 进程 分 配 的 计算 它 所 需要 的 金 局 数据 结构 部 分 正好 是 分 配给 它 的 那 部 分 ， 

即 正 是 它 所 “拥有 ”的 。 这 一 规则 为 并 行 语言 编译 器 所 广泛 使 用 ， 它 将 最 大 化 本 地 数 

据 的 访问 数 。 

另外 两 个 例 程 也 很 有 用 。mySize(global, D 函 数 返回 全 局 数组 局 部 化 部 分 中 第 i 维 的 大 小 。 
因此 ， 虽 然 上 面 的 例子 假设 P 正 好 能 除 尽 n， 计 算 size 的 一 个 更 好 方法 应 是 ; 

size = mySize (allData[ ], 0); 局 部 分 配 的 第 1 维 的 大 小 

最 后 ，localToGlobal (locData, i, j) 将 返回 相应 于 局 部 分 配 locData 第 j 维 中 第 i 个 索引 的 全 局 
索引 。 

全 局 视图 和 局 部 视图 对 localize0 函 数 的 使 用 并 不 意味 程序 设计 语言 应 该 采用 全 局 还 是 

局 部 索引 存在 价值 判断 。 在 第 9 章 中 ， 我 们 将 定义 全 局 视图 语言 和 局 部 视图 语言 ， 且 我 

们 认为 全 局 视图 语言 能 提供 局 部 视图 语言 不 能 提供 的 程序 设计 方便 。 不 过 由 于 Peril-L 

的 目的 是 允许 程序 员 为 任何 程序 设计 模型 表示 算法 ， 需 要 提供 对 数据 全 局 和 局 部 视图 

的 两 种 访问 形式 。 此 外 ， 当 Peril- 蕊 代码 描述 归 约 使 用 时 ， 可 能 需要 数据 的 全 局 视图 ， 

而 在 使 用 Peril-L 描 述 归 约 操 作 实 现时 ,就 可 能 需要 数据 的 局 部 视图 。 


4.2.5 同步 存储 器 


在 Peril- 工 中 我 们 还 可 以 看 到 称 为 fl]Vempty variable (WERE) 的 另 一 种 存储 器 ， 这 是 
全 局 变量 ， 支 持 细 粒 度 同步 。folyempty 变 量 (或 更 简洁 地 ，FE 变 量 ) 的 工作 恰 如 其 名 。 当 它 
声明 为 empty (Z) 时 ， 即 不 含 任何 内 容 。 任 何 空 的 FE 变量 可 以 被 赋值 ， 此 时 就 变 为 满 。 我 们 
称 一 个 满 的 FE 变量 为 full ( 满 )。 任 何 满 的 变量 可 以 被 访问 ( 读 )， 此 时 就 被 清空 ， 即 返回 到 空 
状态 。 还 有 其 他 两 种 可 能 性 ， 即 试图 对 满 的 FE 变量 填 人 或 试图 访问 一 个 空 的 FE 变量 ， 都 将 导 
致 计算 停顿 直至 变量 相应 地 被 清空 或 填 满 。 表 4-1 总 结 了 这 些 状 态 。 考 虑 FE 变量 的 一 种 方法 是 
它们 视 信 息 如 物品 : 为 了 将 物品 放 到 某 处 ， 必 须 先 清空 地 方 ， 当 物品 被 取 走 时 ， 它 就 会 消失 。 


表 4-1 fulyempty 变 量 的 语义 


FE 变量 的 状态 变量 访问 ( 读 ) 变量 赋值 ( 写 ) 
Empty (42) 停顿 填 人 值 ， 变 为 满 
Full (请 ) 取 值 ， 变 为 空 停顿 





为 了 从 语法 上 区 别 ful/empty 变 量 ， 我 们 在 该 变量 名 后 加 一 个 '。 例 如 ， 可 以 如 下 声明 一 个 
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FE 变量 : 

int t'= 0; 声明 t' 并 填 人 0 

因为 它们 可 为 所 有 线程 看 到 ， 因 此 fullyempty 变 量 是 全 局 的 ， 所 以 它们 将 带 来 与 标准 全 局 
存储 器 访问 相同 的 代价 。 此 外 还 有 一 些 因 同 步 机 制 所 导致 的 附加 开销 ， 即 使 在 线程 不 停顿 时 
也 为 如 此 。 


426 ” 归 约 和 扫描 


请 回忆 我 们 在 第 1 章 中 所 介绍 的 全 局 求 和 (+-reduce) 和 并 行 前 组 求 和 (+-scan)。 为 了 通 
用 化 这 些 集 合 操作 ， 在 语言 中 我 们 允许 归 约 和 扫描 作用 于 任何 允许 结合 和 交换 的 基本 操作 ， 
包括 +、*、&&&、1 、max 和 min。 在 操作 符 和 操作 数 之 间 ， 归 约 操作 用 斜 杠 ( / ) 表 示 ， 而 扫描 
操作 用 反 斜 杠 (\) 表 示 , 如 下 : 

+/count Reduce ( 归 约 ) ， 即 累加 count 中 的 所 有 元 素 

min\items Scan (扫描 ) ， 即 寻找 最 小 的 items 前 组 

我 们 允许 操作 数值 是 一 个 完整 的 结构 (struct) ， 只 要 操作 可 作用 于 结构 的 各 个 组 成 元 素 。 

归 约 和 扫描 的 奇特 记 法 ”Peril-L 使 用 儿 杠 和 反 儿 杠 来 分 割 操作 符 和 操作 数 ， 对 大 多 数 程 

序 员 来 讲 可 能 感觉 不 习惯 。 许 多 语言 选择 如 plus-reduce (count) 或 min-scan (items) 的 

记 法 。 但 是 这 种 记 法 对 于 程序 的 例 程 涵 数 调用 来 讲 是 不 可 区 分 的 ， 模 糊 了 高 度 抽 稍 的 

重要 性 并 降低 了 它们 的 作用 。 我 们 特意 采用 这 两 个 科 杠 一 一 它们 源 自 于 APL 语 言 一 一 

是 为 了 强调 归 约 和 扫描 的 含义 。 

全 局 和 局 部 操作 数 ” 归 约 和 扫描 能 作用 于 全 局 值 生成 本 地 可 用 的 结果 ， 如 下 面 所 示 ， 

least = min/dataArray; 

它 将 生成 一 个 标量 ， 存 储 到 每 个 线程 的 本 地 变量 least 中 。 但 归 约 和 扫描 也 能 组 合 多 个 线 
程 的 值 。 操 作 数 ， 即 要 组 合 的 值 ， 也 可 以 是 局 部 变量 ， 且 结果 能 被 赋值 到 一 个 局 部 或 一 个 全 
局 变量 。 因 此 ， 在 下 面 的 语句 中 

total = +/count; 

将 组 合 每 个 线程 中 的 局 部 变量 count， 且 将 生成 的 结果 存 人 局 部 变量 total。 即 每 个 线程 接 
收 该 结果 的 一 个 拷贝 。 

将 扫描 作用 到 跨 多 个 线程 的 局 部 变量 时 ， 如 在 下 面 的 语句 中 

beforeMe = +\count, 
count 变 量 将 被 累加 (以 线程 的 索引 值 次 序 ) ， 所 以 第 i 个 线程 的 beforeMe 变 量 将 被 赋值 为 前 i 
个 count 值 的 和 。 

归 约 和 扫描 的 同步 请 注意 ， 由 于 归 约 和 扫描 可 以 跨 多 个 线程 操作 ， 当 它们 只 对 局 部 变量 
进行 访问 和 赋值 时 就 蕴含 着 同步 。 特 别 地 ， 在 以 下 语句 中 

largest = max/localTotal, 

每 个 线程 的 localTotal 值 将 组 合 在 一 起 并 被 赋值 给 largest。 所 有 线程 必须 到 达 此 语句 以 完 
成 求 和 ， 且 没有 线程 能 继续 前 行 直至 赋值 结束 。 所 以 ， 将 归 约 或 扫描 局 部 值 的 结果 赋值 给 局 
部 变量 具有 障 机 同步 的 效果 。 如 果 该 结果 存 和 人 到 一 个 全 局 变量 ， 则 一 旦 一 个 线程 贡献 其 值 和 
完成 树 操作 的 作用 后 ， 它 就 可 以 继续 向 前 执行 。 
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4.2.7 归 约 的 抽象 


最 后 ， 作 为 一 个 重要 的 程序 设计 指导 方针 ， 我 们 建议 ， 当 需要 从 多 个 线程 处 组 合 值 时 ， 
应 该 使 用 归 约 操作 而 不 要 显 式 地 编写 程序 进行 计算 。 在 Peril-L 中 很 容易 编写 一 个 程序 直接 求 





全 局 累加 ， 如 ， 

exclusive {total += prov_count; } (1) 
使 用 归 约 就 更 方便 ， 如， 

total = +/prov_count; (2) 


但 问题 是 不 便于 编程 。 更 确切 地 说 ， 其 重要 性 是 在 于 要 说 明 所 完成 的 全 局 累加 是 一 个 可 
扩展 的 代码 。 

为 了 分 析 这 一 问题 ， 假 设 已 = 10000。 使 用 exclusive 块 (1) 完成 显 式 求 和 ， 就 必须 使 进程 
顺序 化 ， 在 执行 中 就 没有 并 行 ， 因 此 性 能 将 显著 受 限 。 相 反 ， 归 约 (2) 可 用 前 面 几 章 所 述 的 
树 实现 ， 或 是 可 以 使 用 如 BlueGene/L ( 见 第 2 章 ) 机 器 上 所 提供 的 专门 硬件 。 树 的 实现 将 实现 
并 行 化 ， 并 避免 顺序 化 。 用 最 简单 的 术语 讲 ， 它 将 操作 从 O(P) 转 换 成 OUlog P)。 一 个 编译 器 能 
识别 语句 (1) 是 +-reduce 的 一 个 实例 吗 ? 也 许可 以 ， 那 么 为 什么 不 冒险 试 一 下 ? 明确 地 陈述 
这 一 点 将 有 助 于 编译 器 和 有 关 人 员 ， 同 时 又 可 改进 最 坏 的 性 能 限制 。 


4.3 统计 3 的 个 数 程序 实例 


第 1 章 提 出 了 统计 3 的 个 数 计算 的 几 个 版 本 。 我 们 能 用 Peril-L 对 它们 加 以 说 明 。 例 如 ， 图 4-1 
中 显示 了 相应 于 尝试 3 的 Peril-L 程 序 。 请 注意 ， 为 了 与 原始 的 尝试 3 逻辑 相 匹配 我 们 违反 了 总 
是 使 用 归 约 完成 全 局 求 和 的 规则 ( 仅 此 一 次 ) 。 在 后 面 的 所 有 情况 中 我 们 将 使 用 归 约 。 


4.4 并 行 性 的 表示 


应 该 如 何 对 并 行 计算 进行 表达 ? 在 给 出 我 们 的 回答 之 前 ， 先 考虑 将 导致 不 满意 结果 的 两 
个 显而易见 的 方法 。 


4.4.1 固定 并 行 性 


因为 我 们 通常 知道 (至少 开 始 时 知道 ) 将 使 用 哪 种 计算 机 来 运行 程序 (例如 k 个 处 理 器 的 
多 核 已 片 )， 因 此 很 自然 用 实际 的 并 行 量 来 描述 求解 方法 ， 在 这 种 情况 下 即 是 采用 k 路 并 行 算 
法 。 虽 然 在 程序 设计 时 启发 式 方法 也 许 能 有 助 于 我 们 考虑 ， 但 是 固定 一 个 特殊 的 并 行 度 就 使 
得 所 生成 的 程序 不 具有 可 扩展 性 。 一 个 具有 2k 个 处 理 器 的 改进 多 核 芯 片 将 无 法 改进 性 能 。 

简单 的 统计 3 的 个 数 程序 有 一 个 固定 并 行 性 版 本 ， 如 4 个 处 理 器 。 在 图 4-2 中 所 示 的 代码 基 
本 上 是 图 4-1 中 的 解 在 + = 4 时 的 情况 。 不 论 如 何 ， 好 的 程序 设计 实践 会 鼓励 我 们 将 该 求解 通用 
化 成 有 :个 线程 ， 但 是 对 于 复杂 的 计算 ， 一 种 更 为 基本 的 方法 是 在 受 限 的 版 本 中 将 处 理 器 数 代 
人 到 计算 中 。 

需要 注意 的 一 个 相关 问题 是 ， 我 们 通常 所 感 兴趣 的 计算 机 规模 扩展 常 遵 循 某 种 数学 特性 
的 规则 (如 P 是 2 的 割 次 方 ，P 是 一 个 完全 平方 ， 等 等 ) ， 并 将 这 一 假设 颈 入 到 程序 的 并 行 性 中 。 
程序 可 以 应 用 增加 的 并 行 性 ， 所 以 采用 这 一 假设 没有 什么 坏处 。 但 是 ， 许 多 体系 结构 并 不 按 
此 规则 扩展 ， 所 以 当 将 程序 移植 到 那些 机 器 上 时 将 可 能 浪费 显著 的 计算 能 力 。 一 般 而 言 ， 比 
较 明智 的 做 法 是 应 尽量 避免 编写 任何 具有 特定 并 发 度 的 程序 。 


PAF HTHPRHRS 69 
eK ANTERE” 69 


全 局 数据 
ine pay dength]; 期 望 的 线程 数 


int total=0; 计算 结果 ， 全 部 总 和 
int lengthPer=ceil(length/t); 
forall(index in(0..£-1)) 
‘ int priv_count=0; 局 部 累加 
int i, myBase=index*lengthPer: 
for(i=myBase; i<min(myBaset+lengthPer, length); i++) 


‘ if (array[i]==3) 由 于 数组 已 被 分 割 ， 无 并 发 读 
{ 


1 
2 
3 
4 
5 
6 
7 
8 
9 


priv_countt++; 
} 


} 
exclusive { totalt=priv_count; } 计算 全 部 总 和 





图 4-1 用 Peril-L 记 法 编写 的 统计 3 的 个 数 计算 (尝试 3) 










1 int array[length]; total; 

2 int seg=ceil(length/4); 

3 forall(j in(0..3)) 

4 { 

5 int priv_count=0; 局 部 累加 
6 for(i=u*geg; i<min(length, j*(segt+l)); i++) 

7 { ` 

8 if(array[ij==3) _ 检查 局 部 段 
9 { 

10 priv_count++; 

11 } 








} 
total =+/priv_count; 计算 全 部 总 和 





图 4-2 统计 3 的 个 数 的 固定 并 行 性 求解 (t = 4) 


4.4.2 无 限 并 行 性 


对 上 述 方法 的 一 个 自然 改变 是 假定 底层 的 硬件 能 提供 无 限 的 并 行 性 ， 从 而 可 以 开发 所 有 
可 能 的 并 行 性 ， 当 需要 时 ， 算 法 中 的 并 发 性 能 被 聚集 到 顺序 代码 中 ， 从 而 与 硬件 中 的 可 用 并 
行 性 相 匹配 。 

按照 这 种 观点 ， 我 们 可 按 开发 最 大 并 行 性 方法 来 求解 统计 3 的 个 数 问题 ， 


1 int count = 0; 由 Po 完成 
2 forall(i in (0..n-1) 

3 { 由 Pi 完成 
4 count = +/(array[i] = = 3? 1; 0); 

5 } 


这 段 代 码 很 谭 亮 ， 测试 各 项 并 使 用 +-reduce 累 加 与 3 匹配 的 元 素数 ， 但 它 有 一 些 欺骗 性 。 
假定 +-reduce 使 用 树 算法 加 以 实现 , 则 计算 将 需 时 OCA logn), 这 是 因为 建立 线程 的 开销 是 常量 ， 
相等 测试 的 计算 是 常量 ， 而 组 合 的 代价 是 对 数 的 缘故 。 (我 们 在 时 间 的 分 析 中 引入 了 1， 因为 
虽然 我 们 认为 它 应 是 一 个 常数 ， 但 它 会 随 P 的 增加 而 增长 ,) 事实 上 ， 计 算 所 需 时 间 为 O(2 
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logn + n/P) 因为 当 P<<n 时 ， 一 个 平衡 的 分 配 将 为 每 个 进程 分 配 n/P 个 元 素 ， 且 它们 必须 顺序 
地 进行 测试 。 完 成 局 部 测试 的 计算 (图 4-2 所 示 的 固定 并 行 性 求解 代码 中 的 5-14 行 ) 在 这 里 是 
AAT LAS, EHP = 4 时 将 是 需要 的 。 上 述 这 些 考 虑 是 相对 的 ， 因为 实际 上 /永远 不 会 等 于 由 
至 少 对 数据 并 行 计算 来 讲 是 这 样 。 

但 是 该 问题 实际 上 比 简单 地 隐藏 相关 代价 还 要 坏 (毕竟 我 们 能 学 习 自己 进行 这 种 分 析 )。 
主要 的 问题 是 基于 无 限 并 行 性 的 串 行 化 程序 非常 昂贵 。 当 P<z 时 ， 编 译 器 有 两 个 选择 ， 一 是 模 
拟 不 存在 的 进程 工作 于 代码 上 ， 这 正 是 程序 的 语义 实际 含义 ;二 是 以 某 种 方式 生成 可 扩展 代 
码 以 实现 程序 员 的 意图 ， 这 实际 上 就 是 创建 图 4-1 中 的 7-16 行 代码 。 前 一 选择 是 低 效 的 ， 而 后 
一 种 选择 则 对 编译 器 来 讲 非常 难 (虽然 在 我 们 的 非常 普通 的 统计 3 的 个 数 例子 中 可 能 不 是 这 
样 )。 这 种 通用 但 又 昂贵 的 求解 在 于 它 要 模拟 不 存在 的 进程 。 

认识 以 下 这 一 点 是 重要 的 ， 即 并 行程 序 设计 的 难点 通常 不 是 如 何 识别 并 行 性 ， 而 是 在 
于 如 何 构 造 并 行 性 以 达到 管理 和 减少 线程 间 交 互 的 目的 ， 因 为 这 些 交互 通常 将 导致 性 能 的 
损失 。 


4.4.3 可 扩展 并 行 性 


第 3 种 方法 是 根据 第 2 章 的 局 部 性 原理 ， 它 表示 并 行 求解 的 过 程 如 下 : 首先 ， 确 定 求解 问 
题 的 组 成 部 分 〈 如 数据 结构 、 工 作 负 载 等 等 )， 是 如 何 随 计算 规模 "的 增长 而 增加 的 ， 其 次 ， 
我 们 设计 一 个 重要 (substantial) 子 问题 集 5， 将 大 小 为 的 自然 求解 单位 分 配给 每 个 子 问题 
最 后 ， 尽 可 能 独立 地 求解 这 些 子 问题 。 
* 强调 “重要 ” 子 问题 时 在 保证 在 一 个 线程 中 有 足够 多 的 局 部 工作 ， 从 而 可 平均 分 担 诸如 
通信 的 并 行 开销 ， 并 说 明 分 布 求解 问题 数据 的 合理 性 ， 这 正 是 我 们 的 策略 。 与 之 相反 ， 
统计 3 的 个 数 问题 的 无 限 并 行 性 求解 中 的 线程 只 有 极 少 的 工作 量 。 
“强调 “自然 ” 子 问 题 所 依据 的 事实 是 计算 并 不 总 是 如 统计 3 的 个 数 问题 那样 可 以 平 请 划 
分 ， 例 如 ， 数 组 计算 可 能 最 好 按 整 行 或 整 列 定义 。 因 为 子 问题 的 大 小 决定 了 并 行 量 ，8 
= 18， 在 执行 时 ， 将 调整 y， 以 使 得 $ =P, 
*， 强调 “独立 ” 子 问 题 所 依据 的 事实 是 减少 子 问题 间 的 交互 可 减少 闲置 时 间 和 通信 等 。 由 
于 无 限 并 行 方法 对 全 局 count 进 行 递增 ， 因 而 也 违反 了 这 一 依据 。 
这 些 定性 的 条 件 是 相互 关联 的 。 例 如 ， 一 个 子 问题 小 到 何 种 程度 而 仍 能 有 效 地 分 担 开销 
是 有 限制 的 ， 它 意味 着 ， 对 于 一 个 给 定 的 +， 存在 s 的 一 个 下 限 和 P 的 一 个 上 限 。 

由 于 问题 并 不 总 能 平滑 划分 ， 因 此 在 某 些 情况 下 ， 对 于 给 定 的 nm， 创建 一 个 有 合适 大 小 的 
s， 使 得 n/s = S = P 是 很 困难 的 。 很 显然 ， 如 果 $> 忆 ， 则 多 个 子 问题 将 被 分 配 到 一 个 进程 上 ， 
这 是 通常 的 情况 。 如 果 $<P， 则 对 于 给 定 的 求解 问题 只 能 使 用 较 少 的 进程 。 

图 4-3 所 示 的 统计 3 的 个 数 程序 是 一 个 可 扩展 的 版 本 。 请 注意 它 通 过 数据 本 地 化 和 应 用 拥 
有 者 计算 的 规则 来 遵循 局 部 性 原理 。 由 于 该 程序 在 线程 之 间 没 有 交互 直至 计算 结束 处 的 归 约 ， 
因此 是 非常 高 效 的 。 
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int array{length]; 全 局 数据 
int t; 期 望 的 线程 数 
int total; 计算 结果 ， 全 部 总 和 
forall(j in(0。 -t-1)) 
{ 
int size=mySize(array,0 ) 计算 全 局 数据 的 局 部 大 小 
int myData[size]=localize(array[}); 将 全 局 数据 中 自 己 部 分 与 局 部 
变量 关联 在 一 起 
int i, priv count=0; 局 部 累加 
for(i=0; i<size; i++) 
{ 
if (myData[i]==3) 
{ 
priv_count++; 
} 
} 
total =+/priv_count; 计算 全 部 总 和 





图 4-3 统计 3 的 个 数 问题 的 可 扩展 求解 。 请 注意 ， 数 组 段 已 被 本 地 化 


4.5 按 字 母 顺序 排序 实例 


统计 3 的 个 数 的 例子 允许 我 们 说 明 固定 、 无 限 和 可 扩展 并 行 的 三 种 求解 概念 。 但 是 统计 3 
的 个 数 问题 过 于 简单 ， 因 此 各 种 方法 的 差别 似乎 很 小 。 为 了 强调 三 种 方法 的 差别 并 说 明 Peril- 
LZH, 让 我 们 考虑 对 记录 序列 L 中 的 某 一 字段 x 按 字母 顺序 进行 排序 的 求解 。 

按 字 母 顺序 排列 是 一 种 应 用 在 少量 数据 (目录 的 文件 名 ) 和 大 量 数据 (数据 库 ) 中 的 常 
用 排序 计算 。 在 我 们 的 例子 中 ， 假 设 类 型 为 rec (C 语 言 结构 ) 的 记录 以 线性 数组 形式 存放 在 
并 行 计 算 机 的 全 局 存储 器 中 ， 如 果 数 据 在 磁盘 上 ， 仍 可 使 用 类 似 的 技术 ， 但 在 进行 时 间 分 析 
时 ， 从 磁盘 到 处 理 器 的 传送 将 占据 主要 部 分 ， 它 比 4 的 开销 要 大 得 多 。 

表 4-2 中 列 出 了 按 字 母 顺序 排序 程序 中 所 使 用 的 几 个 辅助 函数 。 

现在 我 们 描述 由 三 种 方法 所 生成 的 解答 ， 然后 对 三 种 生成 的 算法 进行 比较 。 


表 4-2 辅助 函数 
、 

辅助 函数 i oR 

stremp(str1, str2) 比较 以 空 结尾 的 字符 串 str1 和 str2， 返 回 一 个 小 于 、 等 于 或 大 于 0 的 值 ， 
可 在 string.h 中 找到 

charAt(str, pos) 返回 pos 位 置 (初始 为 0) 的 字符 ， 与 JavaScript 做 法 相同 
LetRank(chr) 返回 其 参数 字母 的 序号 (初始 为 0) 
AlphabetizeInPlace() 按 字母 顺序 重新 排序 记录 的 参数 数组 


4.5.1 无 限 并 行 性 


在 无 限 并 行 性 方法 中 ， 可 以 注意 到 我 们 可 同时 完成 的 最 大 比较 数 是 将 记录 的 一 半 与 另 一 
半 进 行 比较 。 这 种 求解 方法 称 为 奇 / 偶 交替 排序 (Odd/Even Interchange Sort) (参见 图 4-4)。 
EE BMPR, HT REEMA HEHE, 如 果 它 们 不 按 次 序 就 交换 ， 接 着 进行 类 似 
的 偶 / 奇 对 操作 。 这 种 交替 对 的 测试 〈 奇 索引 然后 个 索引 ) 顺序 地 执行 直至 不 再 有 交换 发 生 。 

该 程序 使 用 两 个 全 局 变量 L 和 continue， 所 有 其 他 变量 i. done、temp 是 线程 的 局 部 变量 。 





72 PRA H FF dh A 


在 每 一 个 forall 循 环 中 ，L 的 每 一 个 元 素 只 为 一 个 线程 所 访问 ,因此 在 访问 L 时 不 存在 竞 态 条 件 。 
当 按 字母 顺序 排序 完成 后 用 全 局 布尔 变量 continue 来 停止 计算 。 特 别 是 在 第 2 个 forall 循 环 的 结 
东 处 ,使 用 一 个 &&&&-reduce 组 合 所 有 的 局 部 done 变 量 ， 由 它 计算 continue， 来 确定 是 否 还 有 工 
作 未 做 完 。 

虽然 有 许多 的 并 发 性 ， 但 也 存在 许多 的 副本 。 例 如 ， 如 果 一 个 表 中 的 最 小 的 元 素 处 在 最 
后 位 置 ， 在 排序 时 它 就 会 移动 经 过 文件 中 的 每 一 个 位 置 。 
bool continue=true; 


rec Lín); 全 局 数据 
while(continue) do 
{ 





forall(i in(1:n-2:2)) 步 长 为 2 

{ 
rec temp; 
if(stremp(L[i].x,L[itl].x)>0) 奇偶 对 错 序 ? 
{ 
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temp=L[i]; 是 ,修正 
L[i]=L[i+1]; 
L[i+1]=temp; 
} 
} 
forall(i in(0:D-2:2)) 步 长 为 2 
{ 
rec temp; 
bool done = true; 为 终止 测试 建立 设置 
if (stromp(L[i].x,L[it1l].x)>0) 奇偶 对 错 序 ? 
{ 
temp=L[i]; 是 ， 交 换 
L[i]=Lii+1]; 
L[i+1}=temp; 
done=false; 还 未 完成 
} 
continue=!(&&/done); 还 有 任何 改变 吗 ? 





图 4-4 ”用 奇 / 偶 交替 方法 按 字母 顺序 根据 字段 x 对 一 个 记录 表 L 排 序 


4.5.2 固定 并 行 性 


由 于 在 英文 字母 表 中 只 有 26 个 字母 ， 我 们 可 以 想象 用 26 个 线程 进行 并 行 求解 ， 此 时 每 个 
线程 负责 一 个 字母 ， 我 们 称 这 种 求解 方法 为 按 字 母 顺序 批 处 理 (alphabetic batch) 。 在 将 全 局 
数据 局 部 化 后 〈 即 仅 在 指派 给 它 的 部 分 L 数 组 上 设置 工作 ) ， 每 个 线程 统计 以 自己 相应 字母 开 
始 的 记录 数 。 对 这 些 局 部 统计 用 +-reduce 进 行 归 约 , 就 可 获得 全 局 的 以 每 个 字母 开始 的 记录 数 ， 
即 批量 。 每 个 线程 知道 它 的 责任 是 对 myLet 大 小 进行 批 处 理 ， 分 配 足够 的 局 部 存储 器 ， 从 全 局 
数组 中 获取 它 的 记录 ， 并 对 它们 进行 局 部 排序 。 最 后 ， 对 myLet 进 行 +-scan 操 作 ， 此 时 每 个 线 
程 就 知道 在 最 后 的 安排 中 有 多 少 个 记录 在 它 的 字母 之 前 ， 这 样 就 能 把 它 的 成 批 记录 返回 原来 
的 全 局 数组 。 显 然 ， 这 个 求解 方法 无 法 扩展 超过 26 个 线程 ， 但 每 项 排序 所 花费 的 只 是 21 通 信 
代价 (从 最 初 位 置 移 到 局 部 存储 器 ， 以 及 此 后 返回 到 它 的 最 后 位 置 )。 图 4-5 给 出 了 该 求解 的 
细节 。 
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1 rec Lin]; 金 局 数据 
2 forall(index in(0..25)) 每 个 字母 一 个 线程 
3 + 
4 int myAllo=mySize(L, 0); 局 部 项 数 
5 rec LocL[ ]=localize(L[]); 使 数据 可 在 局 部 访问 
6 int counts[26]=0; 统计 每 个 字母 数 
7 int i, j, startPt, myLet; 
8 for(i=0; i<myAllo; i++) 首先 ， 需 要 统计 每 个 字母 相应 的 词 数 
9 { 
10 counts[letRank(charAt (LocL{[i].x,0))]++; 
11 } : 
12 counts [ index ]=+/counts[ index]; 计算 出 每 个 字母 相应 词 数 
13 myLet=counts[ index]; 以 本 字母 起 首 的 记录 数 
14 rec Temp[myLet]; 为 记录 分 配 局 部 存储 器 
15 j=0; 数组 索引 
16 for(i=0; i<n; i++) 局 部 移动 记录 进行 局 部 按 字母 顺序 排序 
17 { 
18 if(index==letRank(charAt(L[i].*,0))) 
19 { 
20 Temp[ j++]= Lii); 局 部 保存 记录 
21 } 
22 } ' oa >. 不 一 rap 
23 alphabetizeInPlace(Temp[ ]); 对 应 这 个 字母 进行 局 部 字母 顺序 排序 
24 startPt=+\myLet; 扫描 统计 应 排序 在 本 字母 之 前 的 记录 数 ， 进 行 
25 j=startPt-myLet 扫描 同步 ， 一 旦 完成 排序 就 可 重 写 工 
j=startPt-myLet; stg 
26 for(i=0; i<count; i++) 在 全 局 数组 中 寻找 该 字母 的 起 始 索引 值 
27 { 将 记录 返回 到 最 初 的 全 局 存储 器 
28 L[jt++]=Temp[ij]; 
29 } 


30 } 





图 4-5 国定 26 路 并 行 求解 按 字母 顺序 排序 。 函数 letRank(X) 将 返回 拉丁 字母 x 的 字号 (初始 为 0) 


归 约 和 扫描 在 这 个 求解 中 起 着 重要 的 作用 。 在 开始 时 ， 每 个 线程 确定 以 该 线程 负责 的 字 
母 开始 的 、 应 局 部 存储 的 记录 数 ， 然 后 对 counts[ ] 进 行 +-reduce 操 作 ， 这 就 确定 了 该 线程 应 对 
全 局 负 多 少 责任 ( 见 第 12 行 )。 此 后 线程 获取 它 的 记录 并 对 这 些 记 录 进 行 局 部 排序 。 最 后 ，+- 
scan 操 作 ( 见 第 24 行 ) 将 告诉 每 个 线程 在 它 的 最 后 输出 中 将 处 在 它 之 前 的 记录 数 ， 这 就 允许 
每 个 线程 将 它 所 负责 排序 的 元 素 返 回 到 原先 的 数组 中 。 

请 注意 ， 已 按 字母 顺序 排序 好 的 批 处 理 记录 不 能 马上 返回 到 全 局 数组 ， 仅 在 所 有 线程 已 
从 全 局 数组 中 移出 了 它们 的 批 记录 后 才 可 返回 。 图 4-5 中 的 解 没有 对 此 进行 显 式 的 同步 ， 更 恰 
当地 说 ， 是 完成 +-scan 操 作 所 需 的 同步 保证 了 所 有 的 数据 已 被 移出 。 

固定 并 行 性 的 求解 要 优 于 无 限 并 行 性 的 求解 ， 但 需 注 意 ， 它 不 能 扩展 。 


4.5.3 可 扩展 并 行 性 


第 3 个 即 最 后 一 个 求解 ， 使 用 可 扩展 并 行 性 方法 生成 一 个 Batcher 双 调谐 排序 算法 ， 它 既是 
可 扩展 的 ， 又 是 我 们 所 热 悉 的 顺序 归并 算法 的 并 行 版 本 。Batcher 为 硬 连 线 的 排序 网 络 开发 
这 一 算法 ， 当 然 我 们 感 兴趣 的 是 它 的 并 行 版 本 。 

初步 想法 总 的 设想 是 每 个 线程 (线程 总 数 必须 是 2 的 智 次 方 ) 含有 某 些 局 部 记录 数 ， 最 
甸 它 们 依据 线程 的 索引 值 和 计算 的 进展 以 递增 或 递 碱 次 序 进行 排序 。 然 后 ， 各 个 线程 对 用 一 
个 妥善 的 协议 归并 它们 的 序列 ， 并 生成 一 个 更 长 的 已 排序 的 序列 直至 整个 数组 按 字母 顺序 排 
序 。 在 以 下 的 讨论 中 将 涉及 图 4-6， 图 中 展示 的 是 用 := 8 个 线程 对 n = 24 个 值 的 序列 进行 排序 。 
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图 4-6 FAP = 8 个 线程 运行 Batcher 的 排序 算法 排序 n = 24 个 数 (一 个 线程 的 索引 值 以 二 进 制 表示 为 bs bz bi bo)。 
由 箭头 指示 增加 次 序 的 方向 ， 即 右 箭头 表示 递增 。 步 Step (一 , 0) 是 最 初 的 局 部 排序 ， 此 后 进程 完成 
一 个 归并 ， 被 归并 的 线程 仅 在 b 位 上 不 同 ， 归 并 后 产生 一 个 递增 (bs=0) 或 递 碱 (bs=1) 序列 


图 中 显示 各 个 线程 对 的 归并 ， 按 照 由 两 个 参数 (p, d) 所 说 明 的 协议 进行 ，p 指 定 哪些 线程 对 
将 进行 值 的 归并 ， 而 < 指定 排序 的 方向 。 

参数 p 受 二 进 制 表示 的 线程 索引 值 支配 。 只 有 在 二 进位 p 位 上 不 相同 的 那 对 线程 才 进 行 归 
并 。( 线 程 索引 值 的 二 进 制 表示 b,…bo 示 于 图 4-6 的 顶端 .) 例如 ， 在 第 1 阶段 (0,1)， 线 程 0 的 
二 进 制 编码 为 0000， 而 线程 1 的 二 进 制 编码 为 0001， 由 于 这 两 个 线程 在 bo 位 不 同 ， 因 此 它们 将 
完成 一 个 归并 ， 类 似 地 其 他 的 相 邻 对 也 将 进行 归并 。 在 下 一 阶段 (1,2) ， 线 程 0 将 与 线程 2 归 
并 ， 这 是 因为 线程 2 的 二 进 制 表示 为 0010， 它 与 线程 0 的 0000 表 示 在 方位 不 同 。 依 次 类 推 。 

排序 的 方向 由 参数 4 控制 ， 即 线程 索引 值 的 第 4 位 bs。 当 bs = 0 排序 就 按 递增 方向 ， 而 若 bs = 1 
排序 就 按 递减 方向 。 请 注意 ，p 永 远 不 会 与 4 相等 ， 在 一 个 阶段 开始 时 ，p 的 值 与 4-1 相 同 ， 并 在 
以 后 的 子 阶段 不 断 递 碱 。 故 两 个 在 b, 位 上 不 同 的 归并 的 线程 需要 与 由 bs 位 给 定 的 排序 方向 相 一 致 。 

一 个 阶段 的 第 一 个 归并 由 归并 两 个 已 排序 的 序列 开始 。 一 个 已 排序 的 序列 是 单调 递增 
单调 递减 的 。( 从 技术 上 讲 ，Batcher 的 排序 算法 同样 适用 于 有 重复 值 的 排序 ， 所 以 更 恰当 的 术 
语 应 分 别 是 非 递 碱 或 非 递 增 ， 为 便于 阅读 ， 我 们 作 了 简化 。) 归并 的 结果 将 产生 两 个 双 调谐 序 
列 ， 即 一 个 递增 和 一 个 递减 的 子 序 列 ， 使 得 它们 形 如 一 个 V 或 一 个 人 。 一 个 归并 将 比较 相应 
的 元 素 ， 将 较 小 的 值 (那些 靠近 字母 表 前 面 的 ) 移动 到 另 一 半 中 ， 我 们 称 其 为 下 双 调 谐 部 分 
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(lower bitonic half) 。 就 形状 而 言 ， 归 并 可 用 如 下 的 图 形 加 以 描述 : 
Ea | | 
递增 递减 


下 双 调 谐 上 双 调 谐 

很 显然 ， 此 后 如 果 归 并 这 两 个 半 双 调谐 (由 其 余 的 子 阶段 通过 递归 加 以 实现 )， 就 可 完成 
对 该 组 合 序列 的 排序 。 虽 然 该 算法 有 满意 的 递归 性 ， 我 们 的 Peril-L 解 将 着 眼 于 快速 直接 的 自 
底 向 上 的 方法 。 

Peril-L 的 解 开始 时 ， 借 助 localize() 函 数 为 每 个 线程 分 配 一 个 记录 序列 。 然 后 ， 每 个 线程 
使 用 key0 函 数 将 记录 压缩 成 一 个 新 的 数据 结构 K， 它 仅 包 含 每 个 记录 的 关键 字段 x< 和 它 的 全 局 
索引 值 ， 

Struct key(char[32] x, int home), 

这 一 压缩 避免 了 不 需要 的 数据 传送 ， 加 快 了 求解 。( 在 固定 和 无 限 并 行 算法 中 也 可 使 用 压 
缩 ， 但 并 没有 什么 价值 )。 每 个 线程 在 开始 时 对 已 压缩 的 文件 进行 局 部 按 字母 顺序 排序 (根据 
po 位 ， 进 行 递增 或 递减 排序 ) ， 此 后 以 p = 0 和 d = 1 进入 算法 的 结构 阶段 。 

Batcher 并 行 排序 的 内 循环 是 两 个 双 调谐 序列 的 归并 ， 称 为 双 调 谐 归 并 (bitonic merge), 
在 该 归并 中 ， 比 较 每 个 序列 的 相应 位 置 并 交换 它们 的 位 置 如 果 较 大 的 项 处 在 低 半 部 分 ， 归 并 
的 结果 产生 男 一 个 双 调 谐 序列 。 双 调谐 序列 的 双 调 谐 归并 产生 的 还 是 双 调 谐 序列 ， 这 是 证 明 
该 算法 确实 能 产生 一 个 排序 序列 的 基础 。 为 了 实现 递增 和 递减 排序 ， 存 在 有 两 个 操作 
mergeUpQO 和 mergeDown()。 两 者 的 差别 在 于 是 较 小 的 线程 索引 值 (向 上 ) 还 是 较 大 的 线程 索 
引 值 (向 下 ) 处 在 低 半 部 分 ， 因 为 术语 递增 或 递减 是 相对 于 增加 线程 索引 值 而 言 的 。 在 表 4-3 
中 我 们 可 以 看 到 一 个 线程 5.…bo 的 操作 有 四 种 可 能 。 处 理 这 四 种 的 代码 构成 了 该 算法 的 内 循环 
(参见 图 4-7 中 的 第 32 一 71 行 )。 

















表 4-3 归并 操作 
操作 与 其 他 线程 对 索引 值 的 关系 归并 时 保留 哪 部 分 
向 上 归并 较 小 索引 值 ，b,…b, ;10 bp_1…bo 保留 低 半 部 分 
较 大 索引 值 ，b,…by 11 bp-1… bo 保留 高 半 部 分 
向 下 归并 较 小 索引 值 ，b,… bp+10 bp-1… bo 保留 高 半 部 分 
较 大 索引 值 ，b,… 因 +1l bp-i bo 保留 低 半 部 分 


算法 的 数据 移动 工作 如 下 面 所 述 。 两 个 线程 在 一 个 子 阶段 开始 时 交换 它们 的 数据 ， 然 后 
依据 表 4-3 中 所 说 明 的 规则 ， 在 内 循环 中 局 部 地 存储 归并 的 低 半 或 高 半 部 分 。 虽 然 向 上 和 向 下 
归并 都 对 相同 的 集 进行 比较 ， 但 该 求解 增加 了 计算 的 粒度 ， 从 而 允许 序列 在 单 次 传输 中 实现 
流水 化 。 为 传送 数据 服务 的 缓冲 器 ， 用 一 个 全 局 变量 BufK 为 每 个 索引 值 加 以 声明 ， 数 据 将 被 
存储 在 该 变量 中 ， 这 种 本 地 化 的 目的 在 于 加 快 访问 速度 。 

需要 使 用 同步 机 制 来 保证 仅 当 缓 冲 器 为 自由 时 〈 即 空闲 的 ) 才 可 存 和 数据。 一 个 解决 方法 是 
声明 Bu 人 含有 满 / 空 变量 ， 但 只 需 单个 满 / 空 变量 就 足以 涉及 整个 缓冲 器 。 我 们 使 用 free* 和 ready' 两 
个 满 / 空 变量 来 控制 一 对 线程 间 的 交互 。 当 free’ 为 满 时 (初始 化 时 为 如 此 )， 就 可 由 配对 的 另 一 个 
线程 对 缓冲 器 进行 填 人 ， 当 reagdy 为 满 时 ， 数 据 已 被 送 往 接收 线程 ， 从 而 可 开始 归并 操作 。 


O 参见 Knuth 的 “计算 机 程序 设计 艺术 ”一 书 的 第 3 卷 。 
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BAD # FF de R 


int m=log2(t); 
rec Lin]; 
int size=n/t; 
key Butk[t][size]; 
bool free'[t] = false; ready'[t}; 
forall(index in(0..t-1)) 
{ 
int i, d, p; bool stall; 
rec LocL[size]=localize(L[]); 
rec inputCopy[size]; 
key Kn[size]=localize(BufK[ ]); 
key K[size]; 
for(i=0; i<size; i++) 
{ 
K[i].x=LocL[i].x; 
K[i].home=localToGlobal (LocL,i,0); 
} 


alphabetizeInPlace(K[],bit(index,0)); 
for(d=1; d<=m; d++) 
{ 
for(p=d-1; p>=0; p--) 
{ 
stall=free' (neigh(index,p)]; 
for(i=0; i<size; i++) 
{ 
Buf£kK[neigh(index,p) )[i]=K[{il; 
} 
ready' [neigh(index,p) ]=true; 
stall=ready' [index]; 
if (bit(index,d)==0) 
{ 
for(i=0; i<size; i++) 
{ 
if (bit(index,p)==0) 
{ 


int t; 线程 数 必须 为 2m 


线程 数 的 指数 

需 按 字母 顺序 排序 的 记录 
局 部 部 分 ， 假设 可 分 

让 关键 字段 通过 的 缓冲 器 
管理 缓冲 器 的 满 空 变量 

线程 部 分 开始 


映射 全 局 到 局 部 

对 值 进 行 局 部 副本 以 简化 同步 

将 全 局 缓冲 器 映射 到 局 部 以 加 快 访问 
工作 序列 数组 

压缩 成 仅 含 关键 字段 


保留 字母 串 
记 住 全 局 索引 值 





局 部 排序 ， 向 上 或 向 下 排序 方向 由 第 0 位 决定 
循环 ，m 个 阶段 


为 每 个 子 阶段 定义 P 


停顿 直至 能 给 出 数据 
将 数据 发 送 给 邻居 (在 该 步 内 ) 


发 送 给 邻居 


释放 邻居 以 进行 计算 
停顿 直至 自己 数据 已 可 用 
按 哪个 方向 排序 ? 


向 上 归并 将 早先 数据 移 至 有 较 低 索引 
值 的 线程 
下 线程 对 


if(stremp(Kn[index][i].x, K[i].x)>0) 


{ 
K[iJ=Kn[i}; 
} 
} 
else 


{ 


上 线程 对 


if(stremp(Kn[index][i].x, K[i}.x)<0) 


{ 
K[iJ=Kn[i]; 
} 
} 
} 
} 
else 
{ 
for(i=0; i<size; i++) 
{ 
if(bit(index,p)==1) 
{ 


向 下 归并 : 将 早先 的 数据 移 至 有 较 高 
索引 值 的 线程 
下 线程 对 


if(stromp(Kn[index][i].x, K[i].x)>0) 
{ 


图 4-7 使 用 Batcher 排 序 算法 按 字母 顺序 排序 L 中 记录 的 PerilL-L 程 序 
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K[i] = Kn[i]; 




















61 } 

62 } 

63 else 上 线程 对 

64 { 

65 if(stremp(Kn[index)[i].x, K[i].x)<0) 

66 { 

67 K[i]=Kn[i]; 

68 } 

69 } 

70 } 

71 } 

72 alphabetizeInPlace(K[],bit(index,p)); ”局 部 排序 ， 向 上 /向 下 方向 由 第 Pp 位 决定 
73 free'[index]=true; 完成 写 缓冲 区 ， 启 用 
74 } 子 阶段 循环 结束 

75 } 阶段 循环 结 

76 for(i=0; i<size; i++) 获取 属于 该 线程 的 记录 
77 { 

78 inputCopy[i]=L[K[i].home]; 获取 记录 并 局 部 保存 
79 } 

80 barrier; 等 待 直至 每 一 个 均 已 完成 
81 for(i=0; i<size; i++)1 使 输出 变 为 可 用 

82 { 

83 LocL[i]=inputCopy[i]; 使 记录 变 为 全 局 可 用 
84 } 









} 






图 4-7 (4) 


所 采用 同步 的 策略 为 如 下 : 一 个 线程 将 一 直 处 于 停顿 状态 直至 它 的 相 邻 线程 的 控制 变量 
free- 变 为 满 ， 此 时 它 将 数据 放 入 它 的 相 邻 线程 的 缓冲 器 中 (BufK) 并 通过 填 满 ready* 告 诉 相 
邻 线程 继续 向 前 执行 ， 此 后 该 线程 就 处 于 停顿 状态 直至 它 自己 的 缓冲 器 被 它 的 相 邻 线程 所 装 
载 ， 并 被 告知 继续 向 前 执行 ， 在 结束 时 ， 它 将 free" 变 量 再 次 填 满 ， 表 示 它 已 为 下 次 的 子 阶 段 
作 好 了 准备 。 

概括 来 讲 ，(p, 中 策略 控制 该 算法 的 整个 活动 ， 它 主要 由 合并 操作 所 组 成 ， 在 一 对 线程 之 间 
用 两 个 同步 变量 来 管理 它们 的 交互 ， 或 是 为 邻居 设置 (ready') 或 是 为 它们 自己 设置 (free” ) 。 


4.6 三 种 求解 方法 的 比较 


三 种 求解 方法 相当 不 同 ， 因 此 不 可 能 将 一 种 方法 视 为 是 另 一 种 的 变化 。 固 定 并 行 和 无 限 
并 行 的 求解 与 可 扩展 求解 相 比 也 许 更 容易 创建 。 而 可 扩展 求解 在 利用 Peril-L 的 特性 方面 要 完 
整 得 多 ， 这 就 意味 着 它 的 并 行 结构 更 为 复杂 。 那 么 ， 究 竟 哪 一 种 方法 最 为 有 效 ? 

“有 效 ” 有 许多 含义 。 我 们 可 以 观察 到 ， 按 照 任何 的 定义 奇 / 偶 求解 总 是 低 效 的 ， 因 为 它 将 
数据 从 一 个 位 秆 移动 到 它 的 邻近 位 置 ， 用 呆板 的 方法 排序 。 按 字母 顺序 的 固定 解 具有 最 少 的 
数据 移动 (任何 记录 最 多 2 次 )， 但 它 过 度 地 使 用 全 局 通信 来 计算 字母 的 位 置 。 这 就 是 说 ,为 
了 识别 记录 “属于 ” 哪 一 个 指定 的 字母 ， 每 个 线程 要 读 所 有 的 数据 ， 这 就 需要 将 x 字段 从 记录 
存储 的 场所 到 每 一 个 进程 移动 两 次 。 因 此 ， 虽 然 最 小 化 了 数据 移动 ， 但 对 数据 的 访问 并 非 如 
此 。 可 扩展 求解 需要 大 量 移动 数据 的 描述 符 ， 但 不 像 无 限 求解 ， 它 以 流 的 形式 移动 ， 因 而 可 
以 流水 化 。 可 扩展 求解 也 不 像 固定 求解 ， 它 移动 它们 到 固定 可 预测 的 目的 地 。 实 际 的 记录 只 
移动 了 一 次 ， 即 最 后 将 它们 按 序 排放 时 。 另 外 ， 除 了 将 数据 传递 给 配对 的 另 一 个 线程 上 时， 可 
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扩展 求解 的 所 有 计算 都 是 局 部 的 。 

但 是 正如 所 述 ， 这 些 求解 的 主要 差别 ， 是 它们 所 涉及 进程 数 的 通用 性 。 当 n>P 时 ， 无 限 求 
解 必须 通过 多 线程 模拟 不 存在 的 进程 。 固 定 求解 不 能 使 用 多 于 26 个 的 进程 ,虽然 在 P<26 时 很 
容易 使 用 简单 的 多 线程 技术 使 多 个 字母 挤 在 一 个 进程 中 。 可 扩展 求解 适合 于 任何 进程 数 直 至 P 
= 2， 虽 然 P 必 须 是 2 的 老 次 方 ， 如 若 不 是 ， 就 将 浪费 进程 。 为 可 扩展 求解 而 做 的 程序 设计 努力 
是 值得 的 ， 因 为 它 不 但 是 高 效 的 ， 而 且 适 用 于 很 广 的 应 用 环境 。 


4.7 小 结 


在 本 章 中 ， 我 们 介绍 了 描述 并 行 算法 的 记 法 Peril-L。 使 用 该 记 法 ， 我 们 描述 了 三 种 不 同 
的 表示 并 行 算法 的 方法 。 

我 们 认为 国定 并 行 过 于 限制 ， 不 能 适应 处 理 器 数 增加 的 情况 。 我 们 给 出 了 无 限 并 行 方法 
生成 的 解 ， 它 只 能 直接 应 用 在 非 实际 的 x = P 的 情况 ， 且 在 n>P 时 将 导致 显著 的 复杂 性 。 最 后 ， 
我 们 认为 可 扩展 并 行 求解 是 最 好 的 ， 因 为 它 能 使 用 许多 处 理 器 而 同时 又 限制 了 通信 和 线程 的 
交互 。 在 第 5 章 中 我 们 将 通过 引入 支持 可 扩展 并 行 的 抽象 继续 进行 这 一 讨论 。 


历史 回顾 


为 描述 算法 开发 的 混杂 语言 ， 在 计算 机 科学 中 有 很 长 的 历史 ， 这 可 追溯 到 Knuth 在 他 的 
《基础 算法 》 一 书 中 所 发 明 的 MIX[1997]。 在 多 个 独立 处 理 器 的 局 部 存储 器 上 应 用 覆盖 全 局 地 
址 的 概念 ， 自 Cray T3E 问 世 以 来 已 在 计算 机 体系 结构 中 经 常 被 使 用 ， 对 覆盖 概念 的 各 种 软件 
变化 的 描述 最 早出 现在 分 区 的 全 局 地 址 空间 (PGAS) 语言 中 。 在 Iverson 的 《A Programming 

Language》[1962] 中 首次 介绍 了 归 约 和 扫描 (本 书 中 所 使 用 的 形式 )。HEP 计 算 机 首次 使 用 具 
有 满 / 空 标志 位 的 存储 器 ，Smith 对 此 作 了 描述 [1978]。Knuth 的 “计算 机 程序 设计 艺术 ”一 书 
的 第 3 卷 “排序 和 搜索 ”[1998] 对 Batcher 的 排序 能 产生 一 个 有 序 顺 序 给 出 了 证 明 。 


习题 


1. 快速 排序 能 提供 数据 并 行 或 任务 并 行 吗 ? 请 解释 理由 。 

2. 下 棋 程 序 能 提供 数据 并 行 或 任务 并 行 吗 ? 请 解释 理由 。 

3. 重新 设计 奇 / 偶 交 替 排 序 程序 使 它 能 以 少 于 P = n 的 处 理 器 数 工作 。 即 每 个 处 理 器 负责 s = n /P 项 。 
考虑 以 下 两 种 情况 : 
a. 5 个 项 是 L 的 连续 元 素 。 
b. 由 [0…n 一 1] 中 处 理 器 index 负 责 的 s 个 元 素 处 在 index, index+p, index+2P，… 位 置 上 。 

4. 用 习题 3 (b) 的 求解 方法 ， 并 假设 每 次 交换 ( 奇 / 偶 或 偶 / 奇 ) 所 需 的 通信 可 在 4 时 间 中 完成 ， 评 
估 在 1024 个 处 理 器 上 对 1,000,000 个 记录 进行 排序 所 需 的 执行 时 间 (以 4 表示 )。 

5 使 用 习题 4 中 的 问题 规模 ， 评 估 按 字母 顺序 容器 求解 所 需 的 执行 时 间 。 

6. 计算 在 25 个 处 理 器 上 对 22" 个 输入 进行 Batcher 排 序 需要 多 少 个 子 阶段 。 

7. 针对 习题 6 中 的 条 件 ， 并 假设 在 LL 中 的 每 个 记录 的 长 度 为 256 个 字 节 ， 计 算 每 个 子 阶段 通过 构建 k 
可 节省 多 少数 据 传送 。 

8. 给 出 在 Batcher 排 序 的 前 两 个 阶段 中 ，free*[0]、free’[1]、ready’[0] 和 ready”[1] 的 值 序列 。 

9. 解释 Batcher 排 序 中 inputCopy 的 作用 。 
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10. 红 / 蓝 计算 仿真 两 个 交互 流 : 在 一 个 nx n 个 格 的 板 上 , 初始 化 后 每 个 格子 将 具有 红 、 白 、 蓝 三 种 
颜色 之 一 , 其 中 白色 表示 为 空 ， 红 色 表 示 向 右 移动 ， 兰 色 表 示 向 下 移动 。 当 颜 色 到 达 边 线 时 就 
环绕 到 对 边 。 在 一 个 交互 的 前 半 步 ， 任 何 红色 可 向 右 移动 一 格 ， 如 果 它 的 右边 格 未 被 占用 ， 在 
一 个 交互 的 后 半 步 ， 任 何 蓝 色 可 向 下 移动 一 格 ， 如 果 它 的 下 边 格 未 被 占用 ， 允许 在 前 半 步 红色 


空 出 的 格 在 后 半 步 由 蓝 色 移入 。 当 用 :x ikg (MEER) 覆盖 该 板 时 观察 该 板 ， 如 果 任 何 
次 砖 的 带 色 区 域 多 出 一 种 颜色 的 c% 时 就 终止 计算 。 用 Peril-IL 为 红 / 蓝 计算 编写 一 个 求解 程序 。 


第 5 章 可 扩展 算法 技术 


了 解 了 搞 述 并 行 算法 所 需 的 记 靶 之 后 ， 现 在 开始 讨论 生成 可 扩展 并 行程 序 的 方法 。 在 这 
里 ， 我 们 关注 于 当 进 程 数 P 增 加 时 ， 仍 能 获得 良好 的 并 行 效率 。 通 常 而 言 ， 效 率 可 以 通过 增 大 
问题 的 规模 来 增加 。 因 此 本 章 关注 于 数据 并 行 计算 ， 因 为 任务 并 行 通常 无 法 随 进程 数 P 的 增加 
而 显著 地 扩展 。 当 然 ， 由 于 许多 任务 并 行 的 计算 能 在 单个 任务 中 使 用 数据 并 行 ， 因 此 本 章 中 
所 讨论 的 这 些 思路 是 可 以 广泛 采用 的 。 

本 章 首先 简要 讨论 一 个 理想 的 数据 并 行 计 算 。 这 是 一 个 能 以 因特网 规模 执行 的 计算 ， 因 
为 它 的 结构 拥有 很 多 大 的 独立 计算 块 。 然 后 我 们 应 用 这 种 结构 来 产生 能 在 多 个 进程 间 组 合 值 
的 可 扩展 技术 。 我 们 还 将 描述 基于 相同 结构 的 归 约 和 扫描 (这 两 种 可 扩展 抽象 有 许多 用 途 ) 
的 通用 实现 。 本 章 最 后 ， 将 可 扩展 并 行 的 目标 与 在 进程 间 分 配 数据 的 问题 联系 起 来 ， 首 先 考 
虑 静态 分 配 ， 然 后 考虑 动态 分 配 。 


5.1 独立 计算 块 


理想 的 并 行 计算 是 由 很 多 大 的 独立 计算 块 所 组 成 ， 且 这 些 块 之 间 没 有 交互 。 这 种 计算 虽 
然 很 少见 ， 但 的 确 存 在 ， 而 且 能 在 因特网 上 利用 空闲 的 PC 计算 资源 加 以 解决 。 美 国 加 州 大 学 
Berkeley 分 校 的 BOINC 项 目 就 整理 了 这 类 项 目的 一 份 清单 。 通 常 ， 独 立 计算 任务 被 下 载 到 参 
与 者 空闲 的 PC 上 进行 计算 ， 然 后 将 结果 返回 给 服务 器 ， 由 服务 器 聚合 这 些 结果 。 这 类 问题 可 
能 很 理想 ， 但 并 不 典型 。 相 反 ， 几 乎 所 有 的 并 行 计算 都 需要 线程 交互 ， 而 交互 的 数量 会 影响 
到 我 们 获得 良好 性 能 的 难 易 程度 。 

即 一 些 并 行 计算 虽然 更 复杂 ， 但 只 要 它们 能 使 用 独立 计算 块 的 策略 ， 就 仍 能 从 中 获 益 。 
我 们 在 第 4 章 中 曾 提 及 的 统计 3 的 个 数 解 决 方案 就 使 用 了 此 种 方式 。 如 图 4-1 中 所 示 ， 各 个 线程 
负责 lengthPer 项 的 块 。 该 解决 方案 是 应 用 了 以 下 重要 原则 的 一 个 例子 ; 

当 并 行程 序 关注 于 计算 块 时 就 更 具 可 扩展 性 (通常 而 言 块 越 大 越 好 ) ， 这 将 最 小 化 线程 间 
的 相关 性 。 

使 用 大 计算 块 是 很 重要 的 ， 因 为 如 果 我 们 假设 有 一 个 固定 的 问题 规模 ， 则 当 进 程 数 增加 
时 ， 每 个 进程 将 在 更 小 的 块 上 操作 。 如 同 我 们 曾 在 第 3 章 中 提 到 的 ， 通 常 有 效 块 的 大 小 有 一 个 
下 限 ， 但 在 达到 该 下 限 点 之 前 ， 持 续 的 扩展 是 有 可 能 的 。 这 种 下 限 点 必须 在 程序 设计 过 程 后 
期 的 性 能 调谐 阶段 ， 或 是 当 将 程序 移植 到 新 硬件 上 时 确定 (参见 第 11 章 )。 


5.2 Schwartz 算法 


从 美国 纽约 大 学 计算 机 科学 家 Jacob“Jack”Schwartz 为 树 操作 提出 的 算法 中 ， 可 以 看 得 
到 我 们 指导 性 的 原则 ， 例 如 +-reduce (加 归 约 ) 。 他 主要 的 观察 是 ， 树 结构 应 该 用 来 连接 进程 ， 
而 不 是 所 有 的 项 。 比 如 对 于 固定 的 进程 数 P 和 值 的 数量 x， 其 中 P<n， 有 两 种 方式 可 用 来 计算 
+-reduce: (1) 引入 逻辑 线程 实现 一 棵 组 合 树 ， 它 精确 地 编码 实现 了 图 1-3 中 具有 n/2 次 辑 并 发 
性 的 解决 方案 ; 或 者 (2) 使 每 个 进程 在 本 地 对 n/P 个 项 进行 求 和 ， 然 后 在 与 所 有 进程 相连 且 
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有 P 个 叶 结 点 的 树 中 ， 对 P 个 中 间 结 果 求 和 。Schwartz 认 为 第 2 种 方案 更 佳 ， 因 为 在 一 个 紧凑 的 
循环 中 求 和 比 在 多 个 进程 中 要 快 。 从 本 质 上 来 讲 ，Schwartz 算 法 的 解决 方案 使 所 有 进程 都 直 
接 参 与 问题 的 求解 ， 但 实际 上 这 种 做 法 并 没有 使 性 能 有 任何 的 改进 。Schwartz 算 法 印证 了 第 4 
章 中 得 出 的 观点 : 即 无 限制 的 并 行 方法 比 可 扩展 的 并 行 方法 要 差 。 虽 然 第 1 种 解决 方案 提供 了 
更 好 的 逻辑 并 发 性 ， 但 实际 的 性 能 却 永远 也 不 会 超过 P 倍 ， 而 且 额 外 的 逻辑 并 发 性 通常 会 导致 
额外 的 工作 ， 而 这 种 工作 在 第 2 种 (本 地 ) 方案 中 是 不 需要 的 。(Schwartz 还 提供 了 一 个 更 详 
细 的 分 析 ， 但 这 个 观点 已 经 很 清晰 。) 

图 5-1 给 出 了 Schwartz 算 法 的 示意 图 。 我 们 看 到 所 有 进程 先进 行 本 地 操作 ， 然 后 使 用 树 结 
构 组 合 它们 的 结果 。 在 树 的 组 合 阶段 ， 并 行 性 是 不 平衡 的 。 因 为 进程 0 会 参与 树 的 每 一 层 组 合 ， 
而 其 他 进程 仅 在 发 送 它们 的 值 到 相 邻 进程 时 才 会 参与 。 








图 5-1 进程 归纳 树 。 各 进程 先 本 地 计算 一 系列 的 值 (用 粗 线 表 示 )， 然 后 成 对 地 组 合 结果 ， 归 纳 成 树 ， 
注意 进程 0 在 树 的 各 个 层次 均 有 参与 

Schwartz 算 法 的 组 合 树 能 利用 我 们 的 Peril- 世 混合 语言 很 好 地 描述 。 如 图 $-2 中 所 示 ， 该 程 

序 依赖 于 满 / 空 变量 的 使 用 。 请 回忆 在 表 4-1 中 所 描述 的 这 种 变量 的 语义 。 它 们 一 开始 是 空 的 ， 














1 int nodewal'(P); 全 局 满 / 空 变 量 ， 用 来 保存 来 自 右 
2 子 结 点 的 值 
3 forall(index in(0..P-1)) 
4 
5 int tally; 
6 stride=1; 
7 。 在 此 处 计算 tally (计数 器 ) 
8 
9 while(stride<P) 开始 树 的 逻辑 
10 
11 if (index’ (2*stride)==0) 
12 { 
13 tally=tally+nodeval' [index+stride]; 
14 stride=2*stride; 
15 } 
16 else 
17 { 
18 nodeyal' [index}=tally; 开始 时 发 送 到 树 结 点 
19 break; 如 果 不 再 是 一 个 父 结 点 ， 则 退出 
20 } 
21 } 
22 











图 5-2 归纳 图 5-1 中 树 的 Schwartz 算 法 。 第 8 行将 局 部 计算 的 值 加 载 到 树 中 ， 第 14 行 在 两 个 操作 数 都 可 用 
时 ， 执 行 求 和 。 线 程 会 在 无 事 可 做 时 退出 


对 空 单元 的 访问 将 导致 停顿 ， 一 个 赋值 将 填 满 一 个 空 单元 ， 对 一 个 填 满 单元 的 访问 将 取 走 该 
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项 ， 最 后 ， 对 已 填 满 的 单元 进行 赋值 将 导致 停顿 ， 直 至 占用 该 单元 的 项 被 取 走 。 由 满 / 空 变量 
提供 的 同步 将 允许 代码 以 一 种 自 适应 的 巧妙 方式 运行 。 当 一 个 线程 发 现 它 的 高 度 为 偶数 时 ， 
它 将 组 合 它 的 2 个 子 结 上 点。 左边 子 结 点 与 线程 有 相同 的 索引 值 (index)， 而 右边 子 结 点 的 索引 
值 与 其 差 Stride 个 单元 (index+stride) 。 当 这 些 操作 数 被 访问 时 ， 它 们 的 存储 器 单元 将 依照 满 / 
空 变量 的 语义 清空 ， 这 就 允许 将 结果 值 存 回 到 父 结 点 中 。 每 次 while 循 环 的 迭代 之 后 ， 就 会 有 
一 半 线 程 结束 。 

与 Schwartz 的 看 法 一 致 ， 我 们 认为 归 约 、 扫 措 和 其 他 基于 树 的 算法 是 局 部 操作 和 有 个 叶 
结 点 的 全 局 组 合 树 这 两 者 的 组 合 。 在 程序 设计 中 使 用 这 种 操作 时 ， 如 

total = +/ data; 
我 们 会 期 望 编译 器 使 用 Schwartz 的 局 部 /全 局 方法 生成 代码 。 

具有 更 高 扇 出 度 的 树 ”在 我 们 的 例子 中 ， 已 经 使 用 了 二 叉 树 ， 但 二 元 性 不 应 成 为 唯一 的 

真理 。 具 有 更 高 肩 出 度 的 树 提 供 了 一 种 折 中 : 更 高 的 扇 出 度 将 导致 一 棵 更 浅 的 树 ， 这 

能 减少 从 根 结 点 到 叶 结 点 的 时 延 ， 但 同时 也 会 减少 可 用 并 行 性 的 数量 ， 且 当 多 个 子 结 

点 部 试图 与 同一 父 结 点 进行 通信 时 ， 将 增加 竞争 。 


5.3 归 约 和 扫描 抽象 


我 们 已 经 讨论 了 树 通信 结构 的 价值 。 在 第 1 章 中 ， 先 使 用 树 结构 从 数组 值 的 相 加 中 去 除了 
顺序 性 ， 之 后 我 们 使 用 Schwartz 风 格 的 树 在 统计 3 的 个 数 程序 的 一 个 版 本 中 消除 了 竞争 ， 否 则 
将 会 有 许多 进程 竞争 共享 单元 。 树 结构 也 可 用 来 描述 归 约 和 扫描 操作 ,这 两 个 操作 可 用 诸如 +、 
*、and、or、min、max 等 操作 加 以 定义 。 在 本 节 中 ， 我 们 将 力图 表明 这 些 抽 象 远 比 这 种 有 限 
操作 集 所 建议 的 功能 要 强大 得 多 ， 此 外 ， 我 们 所 开发 的 通用 归 约 和 扫描 函数 ， 在 定制 后 可 完 
成 许 许 多 多 的 操作 。 

为 什么 归 约 和 扫描 是 重要 的 抽象 ? 下 面 来 逐一 观察 

“ 归 约 ， 组 合 一 组 值 而 产生 单个 值 ， 这 几乎 总 会 要 用 到 ， 因 为 在 并 行 计算 中 ， 在 某 些 时 刻 ， 

总 会 要 比较 或 组 合 由 不 同 线程 产生 的 结果 。 这 或 是 用 来 汇总 计算 ， 或 是 用 来 控制 它 的 执行 。 

“ 扫描 ， 并 行 前 缀 计算。 它 包 含 了 执行 分 离 的 串 行 操作 的 逻辑 ， 以 及 产生 一 系列 中 间 结 果 计 
算 的 逻辑 。 循 环 的 迭代 通常 看 上 去 是 串 行 的 ， 因 为 当 它 们 选 代 时 ， 它 们 会 按 序 累加 信息 。 
但 如 果 更 仔细 观察 ， 就 会 发 现 它们 经 常 可 使 用 扫描 来 解决 ， 这 就 可 以 使 用 更 多 的 并 行 性 。 

我 们 推荐 将 归 约 和 扫描 的 使 用 扩展 到 尽 可 能 大 的 程度 。 即 使 当 程 序 设计 语言 中 没有 这 两 
个 操作 时 ， 它 们 仍 应 当 被 抽象 成 函数 ， 而 不 是 硬 编码 到 程序 中 。 这 是 因为 ， 首 先 ， 它 们 是 高 
层 的 ， 它 们 的 使 用 传递 了 有 关 程 序 罗 辑 的 宝贵 信息 。 其 次 ， 使 用 这 种 抽象 允许 为 目标 机 进行 
定制 的 实现 。 一 些 并 行 机 甚至 为 执行 全 局 求 和 提供 了 硬件 支持 ， 例 如 在 第 2 章 中 曾 提 及 的 IBM 
公司 的 BlueGene/L， 它 就 有 一 个 如 图 2-10b 中 所 示 的 组 合 网 络 。 最 后 ， 它 们 通常 有 许多 机 会 可 
进行 优化 。 例 如 ， 为 了 计算 包含 n 个 欧 几 里 得 点 的 数组 Pt 的 边界 框 (bounding box)， 其 中 数组 
中 的 每 个 元 素 都 包含 了 x 坐标 和 y 坐 标的 字段 ， 可 以 编写 如 下 : 

topEdge = max/Pt.y; 寻找 Pt 数组 中 y 字 段 中 的 最 大 值 

botEdge = min/Pt.y; 寻找 Pt 数组 中 y 字 段 中 的 最 小 值 

rightEdge = max/Pt.x; 寻找 Pt 数组 中 x 字段 中 的 最 大 值 

leftEdge = min /Pt.x; 寻找 Pt 数组 中 x 字段 中 的 最 小 值 


这 段 代码 可 以 被 组 合成 〈 通 过 编译 器 生成 或 由 程序 员 手 动 ) 跨 数据 的 单 次 传送 。 这 种 优 
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化 在 查看 具体 的 实现 细节 时 并 不 显而易见 。 
为 了 最 大 化 地 使 用 这 些 很 有 用 的 思想 ， 支 持 通 用 的 归 约 和 扫描 是 至 关 重 要 的 ， 而 这 正 是 
下 一 小 节 的 主题 。 
两 种 扫描 ”必须 清楚 ， 扫 描 能 依据 在 计算 i 个 元 素 总 和 时 ， 是 否 包括 第 i 个 元 素 本 身 加 以 
区 分 ， 包 括 的 称 为 内 含 (inclusive) 扫描 ， 不 包含 的 称 为 排除 (exclusive) 扫描 。 例 如， 
对 于 序列 4 = {2, 4, 6}， 内 含 扫描 产 生 的 结果 : An A = {2, 6, 12}, 而 排除 扫描 产生 的 结 
KR: HA = {0, 2, 6}， 对 于 排除 扫描 ， 第 1 项 通常 是 函数 的 本 身 ， 或 是 某 个 占 位 符 
《place-holder) 。 由 于 存在 如 下 恒等式 
A<op>(<op>\,x 4)=<op>Nn4 


这 使 得 各 个 实现 之 间 略 有 不 同 ，Peril-L 就 使 用 了 更 为 通用 的 内 含 扫描 。 


5.3.1 通用 归 约 和 扫描 举例 


为 了 了 解 归 约 和 扫描 的 强大 功能 ， 考虑 以 下 问题 及 对 它们 解决 方案 的 描述 。 此 处 ， 我 们 
以 囊 行 的 方式 描述 每 个 解决 方案 ， 但 实际 上 每 个 方案 都 可 以 使 用 定制 的 归 约 操作 并 行 地 解决 ， 
“ 次 小 的 数组 元 素 ”在 数组 中 识别 出 次 小 的 元 素 可 能 很 有 用 。 例如 在 一 个 包含 0 的 数组 中 
识别 出 最 小 正 整 数 ， 则 解决 方案 为 保存 2 个 变量 ，smallest (最 小 ) 和 next-smallest (次 
小 )， 每 个 都 初始 化 为 正 无 穷 。 用 它们 的 值 与 数组 中 的 每 个 值 进 行 比较 ， 如果 数组 的 值 
比 smallest 的 值 要 小 ， 则 smallest 和 next-smallest 都 要 因此 而 更 新 ， 否 则 ， 如 果 数 组 的 值 
只 比 next-smallest 的 值 小 ， 则 只 更 新 next-smallest 的 值 。 
“ 直方 图 (KE) ”给 定 一 个 值 数组 :， 计 算 间 隔 k 的 直方 图 ， 则 解决 方案 将 假设 min 归 约 和 
max 归 约 可 用 来 计算 此 范围 内 的 最 小 值 和 最 大 值 。 一 旦 知道 这 些 值 后 ， 我 们 会 初始 化 有 k 
个 元 素 的 数组 hist 为 0。 然 后 我 们 在 数组 a 中 进行 迭代 ， 计算 每 个 元 素 归 属 的 区 间 ， 并 递 
增 hist 数 组 中 相应 的 元 素 。 
“ 最 长 的 全 1 子 串 的 长 度 ”给 定 一 个 值 数组 v， 计算 最 长 的 全 为 1 的 子 串 。 该 问题 可 以 通过 
使 用 current 和 longest 这 两 个 变量 求解 。 两 者 初始 时 皆 赋 值 为 0， current 变 量 将 保存 当前 
全 为 1 的 长 度 ， 而 longest 变 量 将 保存 迄今 为 止 最 长 的 全 1 的 长 度 。 然后 我 们 在 数组 v 中 进 
行 选 代 : 如 果 v 的 值 为 1!， 我 们 将 递增 current 的 值 ， 如 果 v 的 值 不 为 1， 我 们 会 将 longest 的 
值 设 为 max(current, longest)， 然 后 重 置 current 的 值 为 0。 当选 代 完 成 时 ， 答 案 将 会 是 ; 
max(current, longest), 
“ 首次 出 现 x 的 索引 ”给 定 一 个 符号 数组 s， 返回 首次 出 现 x 的 位 置 ， 则 解决 方案 是 初始 化 
一 个 2 元 素 的 数组 temp 为 x 和 正 无 穷 ， 然后 在 这 个 数据 结构 上 迭代 寻找 *， 找 到 之 后 ， 保 
留 已 保存 的 索引 与 所 找到 的 索引 这 两 者 中 的 较 小 者 ， 
虽然 上 述 这 些 计算 都 能 足够 容易 地 用 Peril-L 或 其 他 语言 实现 ， 但 它们 最 终 都 需要 组 合 中 
间 结 果 ， 可 能 还 需要 一 个 常规 的 归 约 。 为 整个 计算 调用 一 个 更 抽象 的 解决 方案 可 能 更 为 明智 。 
注意 到 上 述 所 有 例子 中 ， 这 些 解决 方案 都 使 用 了 一 定 容量 的 额外 存储 器 来 保存 累加 的 中 
闻 结 果 。 例 如 ， 在 次 小 的 数组 元 素 的 计算 中 ， 我 们 保存 了 最 小 的 和 次 小 的 值 。 在 计算 直方 图 
时 ， 我 们 保存 了 数组 hist 的 x 值 ， 在 识别 最 长 会 为 1 的 子 事 中， 我 们 保存 了 current 长 度 和 longest 
长 度 。 当 我 们 开发 自己 的 通用 归 约 解决 方案 时 ， 会 考虑 一 个 通用 的 做 法 ， 将 这 些 中 间 值 放置 
于 一 个 称 为 tally (计数 器 ) 的 小 数组 中 。 
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与 妇 约 抽象 相同 ， 扫 描 抽象 也 具有 较 强 的 功能 ， 因 为 它 能 并 行 计算 那些 看 起 来 只 能 串 行 
计算 的 问题 。 考 虑 以 下 例子 ， 与 之 前 一 样 ， 我 们 以 串 行 的 方式 阐述 问题 ， 但 以 并 行 的 方式 进 
行 求解 。 

* 参赛 队 的 排名 ”给 定 一 个 数组 results， 它 保存 了 k 个 队伍 间 所 进行 的 a 场 系 列 比赛 的 结果 ， 

所 产生 的 结果 是 在 各 轮 比赛 中 获胜 场次 最 多 的 队伍 ID (如 果 有 多 个 队伍 获得 了 相同 的 获 

胜 场 次 而 导致 平局 ， 则 输出 的 结果 为 0) 。 假 设 数组 results 的 第 ;项 保存 了 赢得 第 ; 场 比赛 的 

队伍 ID， 则 解决 方案 是 先 维护 一 个 有 个 元 素 的 数组 times-won， 且 初始 化 为 0， 然 后 在 数 

组 results 中 进行 和 迭代， 在 数组 times-won 中 增 量 获胜 者 的 项 ， 并 输出 超过 该 点 的 队伍 数 。 

“保存 最 长 的 全 1 子 串 ” 给 定 一 个 二 进 制 数组 ， 除 了 最 长 全 为 1 的 子 串 之 外 ， 删 除 其 余 所 有 

的 1。 与 用 归 约 找到 最 长 的 全 1 子囊 的 长 度 类 似 ， 该 解决 方案 不 仅 保 存 了 每 个 全 为 1 子 串 
的 索引 位 置 ， 而 且 也 保留 了 迄今 为 止 所 能 看 到 的 最 长 全 1 子 串 的 长 度 。 在 获得 全 局 的 答 

案 之 后 ， 访 解决 方案 选 代 地 在 数组 上 逆序 寻找 全 1 子 串 ， 并 将 不 属于 最 长 全 1 子 串 的 其 祭 

任意 全 1 子 串 置 为 0。 

“ 最 后 1 次 出 现 的 索引 ”给 定 一 个 其 元 素 值 选 自 (1… 有 避 的 数组 ， 输 出 与 素 引 ;处 所 存储 的 值 

相同 的 最 近 1 次 的 索引 ， 如果 是 第 1 次 出 现 则 输出 0。 


还 有 许多 其 他 例子 ， 但 这 些 例 子 已 经 充分 说 明了 这 一 思想 。 与 归 约 操作 相同 ， 这 里 的 每 
个 扫描 操作 都 需要 有 一 定 容量 的 、 称 为 tally 的 额外 存储 空间 来 保存 中 间 结 果 。 
5.3.2 基本 结构 


有 一 种 基本 结构 对 所 有 的 归 约 和 扫描 操作 都 能 通用 。 由 于 我 们 在 寻找 一 种 可 扩展 的 解决 
方案 ， 我 们 就 假设 归 约 或 扫描 所 操作 的 数据 结构 已 被 分 割 成 片 ， 分 配 到 未 知 数量 的 进程 上 。 
由 于 我 们 采用 全 局 方式 组 合 数 据 ， 因 此 将 使 用 类 Schwartz 算 法 ， 即 先进 行 本 地 计算 ， 然后 使 
用 树 来 完成 计算 。 我 们 还 假设 每 个 进程 中 已 存在 了 一 个 称 为 tally 的 本 地 变量 ， 它 相当 于 在 之 
前 例子 中 所 提 到 的 额外 存储 器 ， 可 用 来 存储 归 约 和 扫描 操作 的 中 间 结 果 ， 基于 这 些 假设 ， 所 
有 的 归 约 和 扫描 操作 都 可 以 通过 定义 下 列 函数 的 变 体 来 实现 : 

“initO 国 数 初始 化 为 本 地 计算 所 准备 的 计数 器 tally。 

“accum( 函 数 对 一 个 操作 数 元 素 执 行 本 地 累加 ， 并 将 结果 存 到 tally， 

“combine(O) 函 数组 合 从 它 两 棵 子 树 中 获得 的 tally 中 间 结 果 ， 并 将 组 合 后 的 结果 传递 给 其 父 


结 点 。 
“x-gengO 国 数 获 得 全 局 结果 ， 并 生成 最 终 答案 。 对 于 归 约 和 扫描 ， 会 有 各 自 不 同形 式 的 x- 
gen(). 


作为 示例 ， 我 们 来 定义 能 实现 标准 +-reduce (加 归 约 ) 的 函数 ， 即 +/ A, 

*init0) 函 数 创建 了 一 个 整数 的 临时 空间 tally， 并 初始 化 为 0。 

”accum(tally,val) 函 数 将 val 的 值 ( 即 对 应 于 某 个 i 的 A 的 值 ) 与 tally 中 的 值 相 加 ， 并 将 结 

果 赋 值 给 tally。 

“combine(left,right) 函 数 将 左右 子 结 点 的 taly 值 相 加 ， 并 将 结果 传递 给 父 结 点 。 

“reduce-gen(root) 函 数 对 于 该 简单 操作 而 言 是 一 个 空 操作 ， 它 直接 返回 它 的 参量 作为 会 局 

结果 。 

在 本 地 累加 操作 的 末尾 ， 每 个 进程 都 发 送 它 的 值 到 父 结 点 。 图 5-3 表 现 了 这 个 逻辑 ， 图 5-4 
给 出 了 实现 该 逻辑 的 Peril-L 代 码 。 
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reduceGen (root) 
combine (left, right) 











combine (left, right) 


combine (left, right) combine (left, right) 


combine (left, right) 
combine (left, right) 








combine (left, right) 












init() accum(tal, val) accum(tal, val) accum(tal, val) 


| | 


操作 数 ，A ay ao ay 








图 5-3 实现 +/ A 的 通用 归 约 逻辑 示意 图 。 底 部 的 大 方 框 概述 了 本 地 计算 ， 即 以 init0 开 始 ， 并 将 accum( 
应 用 到 每 个 A 值 ， 当 本 地 累加 完成 后 ，tally 被 传递 给 父 结 点 ， 树 结 点 将 combineO 应 用 到 来 自 子 结 
点 的 tally 值 ， 最 终 根 结 点 使 用 reduceGen() 抽 取出 结果 



















1 int nodeval'[P]; 全 局 的 满 / 空 变量 
2 int result; 

3 forall(index in(0..P-1)) 

4 { 

5 int myData[size]=localize(dataarray[]); 全 局 数据 值 的 局 部 部 分 
6 int tally; 

7 int stride=1; ; 

8 tally=init () 初始 化 tally 

9 for(i=0; i<size; i++) 

10 { 

11 tally=accum (tally, myData[i]); ` 局 部 累加 

12 } 

13 nodeval' [index]=tally; 开始 时 发 送 到 父 结 点 
14 while(stride < P) 开始 树 的 逻辑 

15 { 

16 if(index%(2*stride)==0) 

17 { 全 局 组 合 值 

18 nodeval' { index }=combine(nodeval' { index), 

19 nogeval’ | index+stride]); 

20 stride=2*stride; 

21 } 

22 else 

23 { 

24 break; 






} 






if (index==0) 
28 { 

29 xresult=reduceGen (nodeval'[0]); 生成 归 约 值 
30 } 

} 


图 5-4 通用 归 约 逻辑 的 PerilL-L 代 码 。 注 意 那 4 个 构成 函数 所 在 的 位 置 ， 树 的 组 合 依赖 于 满 / 空 存储 器 的 使 
用 ， 它 驱动 了 树 的 累加 。 线 程 在 完成 它们 在 组 合 树 中 的 角色 后 将 会 终止 
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5.3.3 通用 归 约 结构 


对 于 简单 操作 +/ A 而 言 ， 上 述 4 部 分 的 说 明 过 于 通用 ， 但 该 结构 即使 在 更 复杂 (同时 功能 
也 更 强大 ) 的 实例 中 也 是 最 基本 的 。 我 们 的 目标 是 就 要 以 此 种 更 抽象 的 方式 考虑 归 约 。 为 了 
说 明 这 个 问题 ， 我 们 给 出 了 代码 以 表明 secondMin/ A (次 小 的 值 ) 是 如 何 进行 计算 的 。 图 5-5 
给 出 了 tally 项 的 声明 ， 以 及 实现 该 归 约 的 4 个 函数 。 

显而易见 ， 图 5-5 中 的 4 个 函数 只 进行 了 少量 修改 ， 就 替代 了 图 5-4 中 对 应 的 4 个 函数 ， 产 生 
了 高 度 并 行 、 可 扩展 的 secondMin/ A 实 现 。Schwartz 模 板 提供 了 这 个 结构 ， 我 们 只 需要 在 处 理 
过 程 的 不 同 阶段 确定 要 执行 哪些 操作 即 可 。 


struct tally 
f 










float smallestl; 最 小 元 素 
float smallest2; 次 小 元 素 






} 









初始 化 tally 





tally init() 





tally t; 
10 t.smallest1=MAX FLOAT; 
11 t.smallest2=MAX FLOAT; 
12 return t; 

} 













tally accum(tally t, float elem 局 部 累加 


这 是 新 的 最 小 元 素 吗 ? 





if(t.smallestl=elem) 








18 { 

19 t.smallest2=t.smallestl1; 
20 t.smallest1=elem; 

21 } 






else 










if (t.smallest2>elem) 这 是 新 的 次 小 元 素 吗 ? 







25 { 

26 t.smallest2=elem; 
27 } 

28 } 

29 return t; 






} 






通过 累加 右边 的 值 ， 组 





tally combine(tally left, tally right) 









33 { eB) “Aw” 
34 tally t; 

35 t=accum(left, right.smallest1); 

36 t=accum(t, right.smallest2); 

37 return t; 






} 






float reduceGen(tally t) 
41 { 
42 return t.smallest2; 


} 







图 5-5 实现 secondMin 归 约 的 四 个 通用 归 约 函数 。tally 是 个 双 元 素 的 结构 
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5.3.4 通用 扫描 组 件 举例 


通用 扫描 应 用 了 与 通用 归 约 相同 的 概念 。 其 主要 区 别 在 于 组 合 结束 后 ， 中 间 结 果 必 须要 
沿 组 合 树 向 下 回 传 。 也 即 是 说 ， 为 了 完成 本 地 值 上 的 前 缀 计算 ， 每 个 进程 都 需要 从 组 合 树 中 
获得 中 间 值 。( 参 见 第 1 章 中 关于 并 行 前 缀 的 讨论 ， 尤 其 要 注意 图 1-4) 。 

通用 扫描 一 开始 很 像 通 用 归 约 ， 而 且 这 两 个 算法 的 init0、accum0 和 combine0 函 数 在 概念 
上 是 完全 相同 的 。 但 是 为 了 将 中 间 结 果 传 递 给 所 有 进程 ，tally 值 使 用 以 下 的 约束 方式 沿 着 树 
向 下 传递 ; 

每 个 进程 从 父 结 点 处 所 接收 到 的 值 ， 即 是 父 结 点 最 左边 的 叶 结 点 所 遗留 的 tally 值 。 

由 于 我 们 在 块 上 进行 计算 ， 所 以 从 父 结 点 处 所 接收 到 的 tally 值 ， 即 是 最 左边 叶 结 点 块 上 
第 1 项 内 所 遗留 的 组 合 项 值 。 由 于 根 结 点 没有 父 结 点 ， 所 以 init0) 必 须要 稍 作 修改 ， 创 建 一 个 值 
作为 输入 ， 以 作为 根 结 点 逻辑 上 的 父 结 点 。 每 个 结 点 从 其 父 结 点 处 接收 值 ， 并 将 该 值 传递 给 
其 左边 子 结 点 。 对 于 它 右边 的 子 结 点 ， 它 组 合 来 自 左边 子 结 点 向 上 扫描 时 收 到 的 值 和 来 自 其 
父 结 点 的 值 ， 然 后 将 组 合 结果 发 送 给 其 右边 子 结 点 。 

当 叶 结 点 收 到 tally 值 时 ， 它 必须 和 存储 在 操作 数 数组 中 的 值 进行 组 合 ， 以 计算 前 缀 的 总 
和 ， 即 结果 。 在 图 5-6 中 ， 这 些 操作 数 以 图 示 的 方式 出 现在 底部 的 方 框 中 。 因 此 scanGenO 过 程 
生成 了 最 终结 果 。 





combine(left, parent) 







combine(left, parent) 
combine(left, parent) 


+ 








combine(left, parent) 
combine(left, parent) 













combine(left, parent) 





combine(left, parent) 





- - 
- - 


local local loca! 


了 芯 


scanGen(ptal val) scanGen(ptal, val) scanGen(ptal val) 









Xtally : 






result, - resulti; | resulto 


操作 数 A， ai ai+1 ai+2 





a 


扫描 操作 示意 图 。 算 法 的 第 一 部 分 是 简单 的 通用 归 约 ， 如 图 5-3 中 所 示 。 一 旦 找到 爹 局 tally 之 后 ， 
前 组 会 根据 以 下 规则 沿 着 树 向 下 传递 ， 父 结 点 的 值 被 发 送 给 左边 子 结 点 (用 虚线 箭头 表示 )， 
combine(left,parenb) 被 发 送 给 右边 子 结 点 ， 当 前 组 达到 叶 结 点 后 ， 本 地 操作 应 用 scanGen() 函 数 ， 
并 在 操作 数 元 素 中 存储 结果 


图 5-7 显 示 了 通用 扫描 的 逻辑 。 对 比 图 5-4 中 的 逻辑 ， 我 们 注意 到 以 下 几 点 ， 
“分 配 全 局 存储 (ltally) ， 用 来 保存 在 向 上 扫描 过 程 中 左边 子 结 点 的 值 。 (参见 第 19 行 )。 
* 归 约 和 扫描 一 直到 第 28 行 都 是 完全 相同 的 ， 除 了 保存 左边 子 结 点 的 值 。 

* 调用 init0 函 数 (第 33 行 )， 用 来 为 根 结 点 提供 父 结 点 的 值 。 


图 5- 
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pl, 全 局 的 满 / 空 变量 
t nodeval'[P]; 

int Tal 保存 组 合 操作 的 左 操作 数 

forall(index in(0..P-1)) 


‘ int myData[size]=localize(operandArray|[]); 局 部 数据 值 
int tally; 
int ptally; 从 父 结 点 获得 的 tally 
int stride=1; 
tally=init (); 初始 化 
for(i=0; i<size; i++) 
{ 
tally=accum (tally, myData[i]); 累加 
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hodeval' [ index ]=tally; 最 初 发 送 到 父 结 点 

while(stride<p) 开始 树 的 逻辑 

{ . 
if(index%(2*stride)==0) 

{ 组 合 
ltally[index+stride]=nodeval'[index]; 
nodeval'[index]=combine (ltally[indextstride], 

nodeval,'[indext+stride]); 
stride=2*stride; 

} 


else 


break; 
} 


} 
stride=P/2; 
if (index==0) 


ptally=nodeyal'[0); 清空 存在 的 上 扫 值 
nodeval'[0]=init (); 发 送 init() 作 为 父 结 点 输入 


} 
while(stride>1) 开始 树 向 下 的 逻辑 
{ 
ptally=podeval' [index]; 获得 父 结 点 
nodeyal’ [index]=ptally; 将 其 发 送 到 左 子 结 点 
aedeval'[index+stride]= 发 送 父 结 点 + 左 子 结 点 到 右 子 结 点 
combine (ptally, ltally[index+stride]); 
stride=stride/2; 降 到 下 一 个 层次 
} 


for(i=0; i<size; i++) 





myResult[i}=scanGen (ptally, myData[i]); 生成 扫描 
} 
} 
图 5-7 通用 扫描 程 序 。 第 35 行 开始 向 下 广播 tally 值 ， 将 中 间 结 果 分 发 到 所 有 线程 ， 以 此 计算 最 终结 果 
(第 44 行 ) 


* 所 有 的 线程 进入 向 下 扫描 的 while 循 环 (第 35-41 行 )， 但 只 有 那些 已 接收 父 结 点 值 的 线程 
能 参与 。 它 们 保存 了 父 结 点 的 tally (第 37 行 )， 然 后 将 它 发 送 给 左边 子 结 点 (838417), 
并 与 已 保存 的 左边 子 结 点 的 tally 值 进行 组 合 ， 然 后 发 送 结果 给 右边 子 结 点 (第 39 行 )。 

* 向 下 扫描 过 程 分 发 ptally 给 每 个 线程 ， 在 scanGen() 中 会 用 它 计算 最 终 的 结果 (第 44 行 ) 。 

注意 在 该 扫描 中 使 用 了 两 种 不 同形 式 的 init0 和 combine()。 


5.3.5 应 用 通用 扫描 
为 了 说 明 通用 扫描 的 操作 ， 想 象 有 一 个 整数 数组 A， 由 序列 1..4 组 成 。 扫 描 
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lastOccurrence\ A 
AABGL KU SLAVA LR RSH; 车 A 是 第 一 次 出 现 ， 则 返回 9。 我 们 使 用 一 个 有 个 
元 素 的 数组 作为 tally (计数 器 )， 初 始 化 为 0。 如 果 A[] 为 j， 则 accum0) 函 数 将 存储 到 tally[j] 中 
作为 最 近 一 次 出 现 。combine() 函 数 选取 两 个 数组 中 各 元 素 中 的 最 大 值 ， 然 后 扫描 生成 器 会 重 
新 处 理 数据 块 ， 使 用 ptally 作 为 它 的 初始 值 。 图 5-8 显 示 了 产生 该 结果 的 4 个 函数 。( 注 意 最 后 
的 fally 数 组 将 是 数组 的 直方 图 ) 。 


tally init(tally 七 ) 
{ 
for(i=0; i<k; i++) 
{ 
t[i]=0; 
} 
return t; 





设置 全 局 分 配 的 数组 














} 
tally accum(int elem, tally t, int i) 局 部 累加 ， 需 要 数组 索引 
{ 

t[elem-1]=i; 

return t; 





} 
tally combine(tally left, tally right) 组 合 到 “左边 ” 
{ 
for(i=0; i<k; i++) 
{ 
left[{i]=max(left[i],right[i]); 
} 


return left; 


} 
int scanGen(int elem, tally t, int i) 完成 扫描 


t[elem-1]=i; 


ap 
return t[elem-1]; 与 父 tally 累 加 


保存 运行 计数 器 






} 






图 5-8 定制 的 扫描 函数 ， 用 来 返回 位 于 第 ;个 操作 数位 置 的 元 素 最 后 一 次 出 现时 的 索引 ， tally 被 全 局 分 
配 为 有 Kk 个 元 素 的 数组 


5.3.6 通用 向 量 操作 


我 们 已 经 使 归 约 和 扫描 操作 相当 通用 化 了 。 虽然 所 使 用 的 是 一 些 容易 编程 和 解释 的 小 例子 ， 
但 是 必须 清楚 有 许多 计算 可 以 纳入 这 种 类 型 。 实 际 上 ， 有 一 种 方式 是 将 许多 数据 并 行 计算 看 成 
基 一 系列 的 本 地 操作 ， 当 需要 更 多 的 全 局 信息 时 ， 就 交替 地 执行 扫描 和 归 约 。 在 这 种 方式 中 
起 作用 的 归 约 和 扫描 都 背 失 了 它们 各 自 的 特性 ， 此 时 计算 可 被 认 作 是 一 个 通用 的 向 量 操作 ， 在 
这 种 方式 中 ， 本 地 和 全 局 计算 都 进行 了 高 效 计算 。 这 是 一 个 值得 记 住 的 程序 设计 方法 、 
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在 我 们 关于 归 约 和 扫描 的 讨论 中 ， 隐 含 着 这 样 的 概念 ， 即 我 们 的 数据 结构 项 将 会 成 组 地 
分 配 到 不 同 的 进程 。 现 在 来 具体 研究 分 配 数据 和 工作 到 进程 的 问题 。 本 小 节 将 讨论 静态 分 本 
工作 到 进程 的 方法 ， 下 一 小 节 将 考虑 动态 分 配 工作 到 进程 的 必要 性 。 

为 了 与 第 4 章 中 所 提 到 的 可 扩展 并 行 方式 保持 一 致 ， 我 们 所 构思 的 分 配 将 是 针对 某 个 逻辑 
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进程 集 的 ， 这 样 所 产生 的 程序 就 不 会 绑 定 到 任意 特定 数量 的 处 理 器 上 。 例 如 ， 对 于 2 维 数组 4， 
可 以 以 大 小 为 &xy 的 块 分 配 到 各 个 线程 。 以 后 可 根据 需要 ， 选 择 合适 的 、 不 同 的 x 和 "的 值 对 
该 设置 进行 调整 。 

首先 考虑 静态 分 配 数组 的 实例 。 我 们 的 基本 方式 是 静态 分 配 数据 到 线程 ， 然 后 赋予 每 个 
线程 计算 它 所 “拥有 ”数据 的 责任 。 在 共享 存储 器 系统 中 ， 分 配 数据 到 线程 可 能 是 隐 式 的 ， 
即 数据 结构 是 全 局 分 配 的 ， 每 个 线程 却 只 计算 整个 数据 结构 的 一 部 分 ， 这 一 部 分 就 自然 而 然 
地 迁移 到 其 cache 层 次 结构 部 分 。 在 分 布 式 存储 器 系统 中 ， 每 个 进程 将 分 配 到 自己 部 分 的 数据 。 
但 无 论 是 哪 种 存储 器 模型 ， 都 会 要 用 到 本 小 节 中 的 概念 。 


5.4.1 块 分 配 


如 果 我 们 的 目标 是 利用 局 部 性 ， 就 应 当 遵循 如 下 的 原则 : 即将 一 个 数据 结构 中 大 部 分 的 
连续 计算 部 分 一 起 分 配 到 同一 进程 。 这 就 是 我 们 所 熟悉 的 在 cache 中 对 空间 和 时 间 局 部 性 的 利 
用 。 因 此 一 维 数组 通常 会 以 连续 索引 块 的 形式 分 配 到 进程 。 对 于 二 维 数组 而 言 ， 二 维 块 (BD 
在 2 个 维 上 都 连续 的 索引 ) 形式 的 分 配 通 常会 产生 高 效 的 解决 方案 。 此 外 ， 二 维 的 块 分 配 显得 
比 整 行 分 配 更 为 合理 。 因 为 块 分 配 通 常 能 减少 通信 。 例 如 ， 对 于 那些 依赖 于 邻居 结 点 值 的 计 
算 ， 如 所 谓 的 模板 计算 (stencil computation), 


B[i,j] = (A[i-1,j]+A[i,j+1]+ A[i+1,j] + Afi,j-1])/4.0; 


块 分 配 就 比 行 分 配 要 好 ， 这 可 以 从 图 5-9 中 看 出 。 类 正方 块 的 数组 值 具有 如 下 的 性 质 ， 即 


图 5-9 向 16 个 进程 分 配 一 个 16 x 16 数 组 的 两 种 方案 ，a) 二 维 的 块 ，b) 行 。 对 于 每 个 元 素 依赖 于 它 周围 4 个 最 近邻 居 
的 计算 ， 用 灰色 值 表示 的 进程 必须 与 它 的 邻居 进程 进行 通信 以 获得 黑色 值 。 行 分 配 所 需 传输 的 值 为 块 分 配 
的 两 倍 ， 而 且 由 于 表面 积 对 体积 的 得 益 ， 块 分 配 的 得 益 会 随 着 本 地 项 数量 的 增长 而 更 加 显著 。 一 个 复杂 的 
问题 是 ， 事 实 上 行 分 配 每 个 线程 能 发 送 更 少 的 消息 。 第 7 章 中 解释 了 为 什么 通常 而 言 ， 是 所 要 发 送 消息 的 
数量 重要 ， 而 不 是 所 要 发 送 消息 的 大 小 ， 因 为 发 送 消息 的 软件 开销 通常 相当 大 ， 而 实际 数据 的 发 送 通常 被 
高 效 地 流水 化 了 。 但 是 注意 ， 行 分 配 的 得 益 是 固定 的 ， 而 二 维 块 分 配 的 得 益 会 随 着 数组 大 小 而 扩 缩 
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它 位 于 边界 的 元 素 ， 必 定 会 被 进行 模板 计算 的 其 他 进程 所 访问 。 当 块 大 小 增加 时 ， 边 界 元 素 
数 的 增加 却 要 缓慢 的 多 ， 从 而 减少 了 通信 开销 。 我 们 说 ， 块 具有 表面 积 对 体积 的 得 总 
(surface area to volume advantage) ， 因 为 当 大 小 (体积) 增加 时 ， 边 界 元 素数 (表面 积 ) 增 
加 得 较 慢 ， 这 就 意味 着 在 线程 或 进程 间 只 需 发 送 较 少 的 数据 。 图 5-9 中 的 4 x 4 小 例子 需要 从 邻 
居 处 接收 4x4= 16 个 元 素 ， 而 如 果 是 按 行 分 配 ， 就 需要 从 邻居 处 接收 2 x 16= 32 个 元 素 。 在 更 
大 规模 的 问题 中 ， 例 如 将 1024 x 1024 的 数组 分 配 到 P=256 个 处 理 器 ， 若 按 2 维 块 布局 进行 分 
配 ， 则 每 个 进程 将 分 配 到 64 x 64 个 元 素 ， 而 如 果 按 1 维 布局 进行 分 配 ， 则 会 将 4 x 1024 个 元 素 
作为 整 行 分 配给 各 个 进程 。 块 分 配 只 需要 从 邻居 处 接收 4 x 64= 256 个 元 素 ， 而 行 分 配 就 会 需 
要 从 邻居 处 接收 2 x 1024 = 2048 个 元 素 。 

对 于 更 高 维 的 4 维 数组 ， 有 时 会 按 d 维 块 进行 分 配 ， 以 使 其 具有 表面 积 对 体积 的 得 益 。 但 
实际 上 ， 只 全 局 分 配 两 个 维 ， 而 使 其 他 维 的 分 配 局 限于 局 部 才 是 最 常见 的 。 后 面 这 种 选择 通 
常 或 是 因为 没有 足够 多 的 进程 数 进行 4 维 分 配 ， 或 是 因为 各 维 间 极 端的 尺寸 比 。 


5.4.2 ZK 
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例如 ， 在 许多 基于 数组 的 计算 中 ， 每 个 元 素 值 都 是 通过 访问 一 个 固定 邻居 组 的 数组 值 计 算得 
来 的 ， 这 产生 了 所 谓 的 模板 计算 ， 因 为 它们 的 存储 器 访问 模式 (以 及 所 引入 的 通信 模式 ) 是 
一 个 能 作用 到 数组 中 每 个 点 的 模板 。 这 些 计算 需要 访问 由 邻居 进程 拥有 的 值 。 例 如 ，4 个 最 近 
邻居 点 的 模板 

Bli,j} = (A[i-1,j]+A[i,j+1]+ Alitl,j]+ A[i,j-1])/4.0; 

会 访问 存储 于 每 个 进程 的 4 个 邻居 中 的 值 。 对 于 块 分 配 而 言 ， 图 5-9(a) 显 示 了 对 于 所 分 配 
的 顶部 行 ， 它 需要 访问 位 于 它 之 上 的 进程 中 的 A[i1, 四 ， 对 于 块 中 其 他 边界 元 素 的 访问 也 可 
依 此 类 推 。 这 些 邻 居 值 最 好 按 如 下 方式 加 以 访问 : 

“为 一 个 分 布 式 数组 的 本 地 部 分 分 配 存 储 时 ， 分 配 一 块 额外 的 空间 来 保存 将 会 被 访问 的 非 

本 地 值 。 这 种 称 为 重 奉 区 域 的 额外 存 
储 , 被 分 配 成 与 数组 的 本 地 部 分 连续 ， 
就 如 同 该 进程 也 拥有 那些 非 本 地 数组 

部 分 。 

“从 其 他 进程 中 获得 所 需 的 非 本 地 值 ， 

并 将 它们 存储 到 重生 区 域 。 

“现在 可 在 完全 是 本 地 的 数据 值 上 执行 

计算 。 可 以 对 这 些 已 缓存 的 非 本 地 值 

进行 访问 ， 直 至 拥有 进程 修改 了 它们 

的 值 ， 那 时 就 需要 获取 新 的 值 。 

参见 图 5-10。 

有 几 个 好 处 使 得 我 们 推荐 这 个 方法 。 图 5-10 数组 块 的 重 公 区 域 (灰色 部 分 ) 显示 相 邻 


第 一 ,一旦 重 到 区 域 被 填 满 之 后 ， 计 算 中 进程 上 的 非 本 地 值 必须 被 移 来 填充 重生 区 
所 有 的 访问 都 是 本 地 的 ， 这 将 导致 大 的 独 域 ， 一 旦 重 登 区 域 被 填充 ， 则 模板 计算 就 
立 计算 块 。 第 二 ， 计 算 对 于 所 有 数组 的 访 是 完全 本 地 的 〈 未 使 用 “缺失 的 角落 "， 但 


问 都 使 用 了 相同 的 索引 计算 ， 因 此 它 能 在 它们 会 被 分 配 以 简化 数组 索引 的 计算 。) 
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单个 循环 伐 套 中 执行 ， 而 不 会 产生 特殊 的 边界 例外 。 第 三 ， 借 助 于 批 处 理 通信 ， 我 们 能 将 多 
个 跨 进程 的 相关 有 效 地 组 合成 相关， 即 计 算 只 需 访问 来 自 b 个 邻居 进程 的 数据 。 最 后 ， 借 助 
于 批 处 理 通信 ， 我 们 通常 能 减少 通信 代价 。 对 于 分 布 式 存储 器 程序 设计 模型 ， 数 据 的 传输 需 
要 ?+ dws 黎 来 传输 4 个 字 节 ， 此 处 wo 是 (初始化) 开销， 是 传输 每 个 字 节 的 时 间 。 批 处 理 通 信 
通过 使 用 更 大 的 消息 分 推 了 通信 开销 。 对 于 共享 存储 器 机 器 ， 这 个 方法 能 通过 移动 整个 cache 
行 来 减少 通信 代价 ， 即 无 需 再 为 单个 数组 元 素 请 求 建立 元 余 的 存储 器 ;使 用 重 又 区 域 也 有 利 
于 减少 假 共享 。 


5.4.3 ”循环 分 配 和 块 循环 分 配 


在 那些 工作 量 与 数据 量 不 成 比例 的 算法 中 ， 块 分 配 可 能 会 存在 糟糕 的 负载 平衡 。 例 如 ， 
就 LU 分 解 而 言 ， 这 是 一 种 线性 代数 计算 ， 它 将 一 个 矩阵 分 解 成 2 个 矩阵 的 乘积 ， 以 求解 线性 
方程 组 。 这 种 计算 在 矩阵 上 进行 迭代 ， 且 每 次 选 代 都 会 求 得 一 行 和 一 列 的 结果 ， 因 此 工作 量 
在 每 次 迭代 后 都 会 减少 。 图 5-11 显 示 了 余下 的 工作 量 分 布 是 不 平衡 的 。 图 5-11a 显 示 在 白色 列 
和 总 色 行 中 的 结果 均 已 分 别 求 得 。 图 5-11b 显 示 了 16 个 进程 在 逻辑 上 布局 为 一 个 网 格 ， 而 图 
5-11c 则 显示 了 和 矩阵 是 如 何 使 用 块 分 配 将 数据 分 配 到 进程 的 。 我 们 看 到 当 这 个 算法 进行 时 ， 那 
些 拥有 矩阵 中 黑色 和 白色 部 分 的 进程 ， 它 们 的 工作 量 将 逐渐 减少 。 例 如 ， 在 第 一 个 25 允 的 行 
加 到 结果 数组 之 后 ， 位 于 数组 左边 和 顶部 的 7 个 进程 (44% 进 程 ) 将 无 事 可 做 。 因 此 ， 在 处 理 
完 所 有 行 的 四 分 之 一 之 后 ， 几 乎 有 一 半 的 进程 就 将 处 于 空闲 状态 。 事 实 上 ， 最 后 25 狗 的 行 工 
作 是 由 进程 Ps; 串 行 处 理 的 。 


图 5-11 示意 图 : a) LU 分 解 算法 ，b) 16 个 进程 以 逻辑 网 格 布局 ，c) 分 配 数组 元 素 到 进程 。 例 如 ， 进程 Po 
被 分 配 了 左上 角 完 整 的 三 行 三 列 的 数组 部 分 


一 个 可 以 解决 这 种 负载 不 平衡 的 方法 是 使 用 循环 分 配 ， 即 将 各 个 元 素 以 扑克 牌 游戏 中 常 
用 的 轮转 发 牌 方式 (round-robin) 分 配 到 不 同 线程 (参见 图 5-12) 。 循 环 分 配 能 平衡 负载 ， 因 
为 它 试图 在 多 个 进程 间 分 配 热点 。 但 是 ， 循 环 分 配 会 由 于 增加 了 跨 进程 相关 的 数量 ， 从 而 增 
加 通信 代价 ， 循 环 分 配 实际 上 是 “大 计算 块 ”方法 的 对 立 面 。 

为 了 在 局 部 性 和 负载 平衡 之 间 进行 折 圳 ， 使 用 块 一 循环 (block-cyclic) 分 配 是 一 个 常用 
的 做 法 ， 即 以 块 为 单位 进行 循环 分 配 。 图 5-13 显 示 了 和 矩阵 中 的 连续 块 以 块 -循环 分 配方 式 特 
环 地 分 配 到 不 同 进程 的 情况 。 图 中 显示 出 了 块 -循环 分 配 的 一 些 特征 。 第 一 ， 块 的 大 小 不 必 
整除 矩阵 的 大 小 ， 仅 当 需 要 时 才 对 块 进行 简单 的 分 割 。 第 二 ， 每 个 进程 从 整个 矩阵 中 接收 块 ， 
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因此 当 计 算 进 行 时 ， 已 完成 部 分 和 未 完成 部 分 均 将 驻 留 于 各 个 进程 上 。 图 5-14 显 示 了 图 5-13 
的 分 配 在 LU 计算 执行 到 中 途 时 的 情况 。 请 注意 余下 的 工作 在 进程 间 平衡 得 相当 好 。 






人 


图 5-12 将 8 x 8 数组 循环 分 配 到 5 个 进程 的 图 示 ”图 5-13 以 3 x 2 的 块 将 14x 14 的 数组 块 循环 分 配 到 
4 个 进程 〈 以 不 同 颜色 标 出 ) 




















i: to om 
图 5-14 图 5-13 的 块 循环 分 配 在 计算 中 途 时 的 情况 。 位 于 右边 的 块 简要 表示 了 各 个 进程 上 的 活跃 值 


图 5-13 中 所 示 的 特殊 分 配 使 用 了 3 x 2 的 块 ， 我 们 看 到 每 个 元 素 都 与 分 配 到 不 同 进程 上 的 
元 素 相 邻 ， 因 此 如 果 计 算 的 某 些 其 他 部 分 必须 要 访问 那些 最 近 的 邻居 时 ， 这 种 小 块 的 规模 很 
有 可 能 会 导致 相当 可 观 的 开销 。 第 一 ， 在 块 之 间 会 有 相当 大 的 通信 。 第 二 ， 每 个 3 x 2 块 的 重 
登 区 域 需要 比 块 本 身 更 大 的 存储 器 。 第 三 ， 很 小 的 块 无 法 利用 局 部 性 。 使 用 较 大 的 块 ， 比 如 
64 x 64, 能 减少 通信 总 量 ， 并 减少 每 块 所 分 摊 的 开销 。 但 是 如 果 块 变 得 太 大 ， 负 载 不 平衡 的 可 
能 性 就 会 再 次 增加 。 一 般 而 言 ， 平 衡 块 - 循环 分 配 之 间 各 个 相互 矛盾 的 目标 是 一 件 需要 慎重 
考虑 的 工作 。 

例 ， 使 用 循环 分 配 的 负载 平衡 EF RH BH (Mandelbrot set) 的 朱 莉 亚 集 (Julia 
set), FLA PIER BBE S 








Zn =Z te 


其 中 z 是 函数 第 ?次 选 代 的 值 ，c 是 一 个 复数 系数 ， 它 决定 了 朱 莉 亚 集 在 复数 平面 上 的 形 
状 ， 函 数 的 第 1 次 迭代 被 定义 为 z = ao， 其 中 ao 是 某 个 常数 值 。 为 了 针对 给 定 的 系数 c 生 成 一 个 
集 ， 复 数 平面 上 (基于 某 一 指定 的 精度 ) 的 每 个 点 将 一 直选 代 ， 直 至 结果 的 绝对 值 超过 2.0 或 
适 代 的 次 数 达 到 某 一 上 限 值 。 复 数 平面 上 每 个 点 所 经 历 的 和 迭代 次 数 决定 了 该 点 的 颜色 

我 们 将 创建 朱 莉 亚 集 作为 一 个 需要 负载 平衡 的 并 行 计算 实例 (参见 图 5-15) 。 虽 然 计算 是 
易 并 行 的 〈 因 为 每 个 点 都 能 独立 计算 ) ， 但 收敛 所 需 的 选 代数 则 是 高 度 可 变 的 。 如 果 我 们 分 配 
工作 到 进程 在 空间 上 是 基于 图 中 每 个 点 的 位 置 ， 则 某 些 进程 将 远 先 于 其 他 进程 完成 迭代 。 实 
际 上 ， 基 于 邻近 原则 的 绝 大 多 数 分 配 策略 都 将 导致 粳 糕 的 分 配 。 


94 RAED FH F te 


一 个 显而易见 的 解决 方案 是 以 循环 分 配 的 方式 将 像素 分 配 到 进程 。 因 此 像素 (0, 0) 将 被 分 
配 到 进程 P， 而 像素 (0, 1) 将 被 分 配 到 进程 P|， 一 般 而 言 ， 如 果 图 像 是 xxy， 则 像素 (r, 5) 将 被 
分 配 到 进程 Poyts moap。 如 果 P 不 能 整除 y， 则 分 配 将 确保 任务 在 图 像 上 是 规则 采样 的 ， 在 易 与 
难 的 像素 间 给 出 了 大 致 平衡 的 分 配 。 当 P 能 整除 y 时 ， 则 分 配 将 导致 像素 按 垂直 线 分 布 ， 这 或 
许 仍然 是 可 接受 的 。 但 万 一 无 法 接受 ， 我 们 还 能 基于 一 个 小 的 kxk 像 素 区 域 分 配 工作 ， 以 如 
免 该 问题 。 此 处 k 对 行 的 大 小 是 个 相对 素数 。 


5.4.4 不 规则 分 配 


当然 ， 还 有 许多 算法 使 用 了 非 数 组 的 其 他 数据 结构 ， 如 非 结 构 化 网 格 。 这 些 形状 不 规则 
的 网 格 通常 由 三 角形 组 成 ， 常 会 在 有 限 元 计算 中 用 到 ， 可 用 来 仿真 诸如 机 辟 的 流体 动力 学 
(参见 图 5-16) 。 虽 然 使 用 了 更 为 复杂 的 数据 结构 ， 但 仍 可 应 用 相同 的 原理 。 假 设 交互 发 生 在 
网 格 的 边界 ， 通 过 识别 出 具有 较 大 表面 积 对 体积 比 的 网 格 的 大 部 分 ， 可 最 小 化 进程 间 的 通信 。 
这 种 划分 技术 可 分 为 两 类 : 基于 几何 的 划分 和 基于 图 像 理论 的 划分 。 划 分 技术 的 相关 文献 通 
常 可 通过 搜索 诸如 “网 格 划 分 ”之 类 的 术语 访问 到 。 








图 5-15 REE (Julia Set), ， 从 网 站 http:/ aleph0. 图 5-16 非 结构 化 网 格 举例 ， 图 中 显示 了 两 个 机 村 
clarku.edu/~djoyce 上 生成 的 压力 分 布 。 该 图 来 源 ; http://fun3d. larc. 


nasa. gov/ example-24.html 


由 于 数据 访问 是 非 规则 的 (经 常 直到 运行 时 才 会 清楚 )， 因 此 很 可 能 这 是 一 种 非常 低 效 的 
获取 非 本 地 值 的 方法 : 即 发 现 一 个 访问 是 非 本 地 的 ， 获 得 它 ， 发 现下 一 个 访问 是 非 本 地 的 ， 
获得 它 ， 以 此 类 推 。 为 了 避免 这 种 细 粒 度 、 串 行 的 解决 方案 ， 并 希望 能 用 到 好 的 并 行 概念 ， 
人 们 研发 了 一 种 称 为 检查 者 /执行 者 (inspector/executor) 的 技术 。 在 执行 一 次 迭代 或 其 他 一 
大 段 代码 之 前 ， 对 不 规则 数据 结构 的 数据 访问 进行 “检查 ”， 即 分 析 并 识别 出 哪些 是 非 本 地 的 ， 
以 及 它们 所 分 配 于 的 进程 。 所 有 对 非 本 地 进程 的 访问 将 先 分 批 ， 再 成 批 访问 。 之 后 ， 当 数据 
变 为 本 地 后 ， 执 行者 才 执行 计算 。 注 意 这 与 数组 分 配 中 使 用 重合 区 域 以 缓存 非 本 地 数据 的 思 
路 是 相同 的 。 
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检查 者 /执行 者 是 动态 分 配 技术 的 一 个 例子 。 我 们 现在 就 来 观察 其 他 的 动态 分 配 技术 。 
5.5 动态 为 进程 分 配 工作 


在 许多 应 用 场合 ， 采 用 固定 的 工作 分 配 是 不 可 能 的 ， 因 为 新 的 工作 会 在 计算 过 程 中 动态 
地 创建 。 这 些 例子 包括 : 处 理 客户 端 请 求 的 服务 器 ， 一 种 能 创建 新 的 工作 以 使 用 额外 计算 能 
D (因为 解决 方案 需要 有 最 大 的 计算 能 力 ) 的 自 适 应 算法 许多 图 算法 。 在 另 一 些 应 用 场合 ， 
计算 能 力 的 总 量 与 数据 的 总 量 是 不 成 比例 的 ， 因 此 静态 分 配 将 导致 糟糕 的 负载 平衡 。 在 上 述 
这 些 情况 中 ， 动 态 工作 分 配 能 平衡 负载 ， 因 为 空闲 进程 会 被 分 配 到 额外 的 工作 。 本 小 节 将 描 
述 工作 队列 ， 这 是 动态 分 配 工作 到 进程 的 一 种 策略 。 我 们 的 讨论 将 关注 于 各 个 进程 与 工作 队 
列 之 间 的 交互 ， 但 关键 是 要 记得 工作 队列 中 的 任务 可 以 直接 与 队列 中 另外 一 个 任务 进行 交互 ， 
在 开发 一 个 并 行 算法 时 间 样 需要 考虑 到 这 种 交互 。 


5.5.1 工作 队列 


工作 队列 是 用 来 向 线程 或 进程 动态 分 配 工作 的 一 种 数据 结构 ， 它 在 许多 串 行 算法 中 都 有 
用 到 ， 尤 其 当 工 作 会 在 计算 过 程 中 动态 生成 时 ， 因 而 将 其 推广 到 多 个 进程 也 是 顺理成章 的 。 
最 简单 的 工作 队列 是 先进 先 出 (FIFO) 的 任务 描述 符 表 ， 其 中 新 创建 的 任务 会 添加 到 队列 的 
一 端 ， 而 欲 处 理 的 任务 则 从 队列 的 另 一 端 移 走 。 例 如 ， 常 见 的 生产 者 /消费 者 (producer/ 
consumer) 范例 就 使 用 了 FIFO 表 ， 用 以 在 生产 者 进程 与 消费 者 进程 之 间 通 信人 作业。 

作为 一 个 能 以 工作 队列 形式 表达 的 普通 例子 ， 让 我 们 考虑 3n+1 猜 想 (或 称 为 Collatz 猜 想 ) 
问题 ， 它 建议 对 下 述 提 问 给 予 肯 定 的 回答 ,“ 对 于 任意 的 正 整 数 ao, 如 下 定义 的 计算 步骤 是 否 
会 收敛 于 1? ”( 参 见 http://mathworld.wolfram.com/CollatzProblem.html)。 

a oy ai-1 为 奇数 
0 ai- A (Rr 

例如 ， 对 于 ao= 15,16,17, MAR Ha: 序列 便 为 ， 

15,46,23,70,35 106,53 ,160,80,40,20,10,5,16,8,4,2,1 

16,8,4,2,1 

17,52,26,13,40,20,10,5,16,8,4,2,1 

借助 于 计算 机 的 搜索 ,我们 已 知 该 猜想 对 于 所 有 小 于 3 . 25 的 整数 都 是 正确 的 ， 但 我 们 感 
兴趣 的 问题 是 “定义 为 max(ai) / ao 的 最 大 扩张 因子 是 多 少 ? ”， 即 相对 于 初始 值 ， 最 大 的 中 间 
结果 会 有 多 大 ? 对 于 15, 扩 张 因子 是 160/15=10.67; 对 于 16， 它 是 1， 而 对 于 17， 它 是 
52/17=3.06。( 现 在 还 不 清楚 该 扩张 因子 的 值 有 没有 界限 ， 或 许 真 正 意义 上 ， 这 个 问题 更 为 重 
要 。) 我 们 将 以 实现 最 大 扩张 因子 的 搜索 作为 例子 ， 因 为 这 是 一 个 能 多 方面 展示 工作 队列 的 简 
单 例子 。 , 

我 们 的 解决 方案 假定 工作 队列 包含 了 要 测试 的 下 一 个 整数 。 对 于 P 个 进程 ， 我 们 初始 化 队 . 
列 为 前 P 个 正 整 数 ， 

cox (400; 4<P; i++) 

{ 

ali]=i+1; 

} 

此 处 的 整数 是 任务 描述 符 。 作 为 一 个 通用 原则 ， 即 当 任务 描述 符 能 自 包含 时 ， 让 它们 尽 
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量 小 是 明智 之 举 。 在 本 例子 中 ， 使 用 整数 已 然 足够 了 ， 因 为 它们 就 是 要 测试 的 数字 。 

每 个 线程 都 将 扮演 生产 者 和 消费 者 的 双重 角色 。 作 为 消费 者 ， 它 从 队列 中 移 除 第 一 项 ， 
作为 生产 者 ， 它 将 在 它 刚 移 除 的 值 上 加 上 P， 然 后 将 新 值 附 加 到 队列 末尾 。 加 上 P 的 基本 原理 
是 由 于 有 P 个 线程 会 同时 检查 整数 ， 因 此 前 进 P 就 能 跳 过 那些 将 被 其 他 线程 处 理 的 值 。 线 程 的 
逻辑 如 图 5-17 所 示 。 




























1 float ef=1.0; 最 佳 扩张 因子 

2 int bestA=1; 记录 哪个 ax 有 最 佳 扩张 

3 int head=0; Q 中 下 一 个 要 处 理 的 项 

4 forall(index in(0 .. P-1)) 定义 P 个 线程 来 执行 测试 

5 

6 int a=1; 测试 数量 

7 float myEF=1.0; 本 地 扩张 因子 

8 int big, atest=1; 用 来 计算 扩张 因子 的 本 地 变量 
9 

10 while(a<runSize) 限量 20 亿 ， 或 扩张 到 单 精 度 
11 { 

12 exclusive 从 Q 中 获得 a， 然 后 留 下 a+P 
13 { 

14 a=g[head]; 

15 g[head]=a+P; 

16 head=(head+1)%P; 

17 } 单线 程 区 域 的 结尾 

18 atest=a; 为 测试 进行 设置 

19 big=a; 开始 值 可 以 是 我 们 见 到 的 最 大 值 
20 while(atest!=1) 

21 { 

22 if(even(atest) ) 

23 { 

24 atest=atest/2; 

25 } 

26 else 

27 
28 atest=3*atest+1; 
29 big=smax(big, atest); 

30 } 

31 } : 

32 myEF=big/a; 为 这 个 a 计算 扩张 
33 exclusive 从 QO 中 获得 a， 然 后 留 下 atP 
34 { 
35 if (myEF>ef) 记录 任何 的 进展 (在 第 一 次 之 后 ) 
36 { 
37 ef=myEF; 

bestA=a; 





图 5-17 计算 Collatz 猜 想 扩张 因子 的 代码 


在 声明 变量 和 创建 线程 之 后 ， 计 算 进 入 while 循 环 以 处 理 一 组 整数 。 该 过 程 的 第 一 步 是 进 
入 一 个 单线 程 区 域 ， 以 允许 线程 无 竞 态 地 处 理 全 局 队列 。 当 下 一 个 数 从 队列 中 移 除 时 ， 队 列 
将 用 新 数 进行 更 新 ， 同 时 队列 头 前 进一步 。 

在 计算 的 主体 部 分 ， 线 程 设 置 了 两 个 值 (big, atest) ， 然 后 又 进入 了 一 个 定义 了 a 序列 的 
while 循 环 。 当 每 个 3 x a+ 1 发 生变 化 时 ， 新 的 a 将 被 测试 ， 以 查看 是 否 比 之 前 所 看 到 的 要 大 。 
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如 果 是 ， 则 它 会 被 保存 下 来 。 当 ce==1 时 ， 该 循环 结束 。 在 结尾 部 分 ， 会 再 次 进入 临界 区 ， 以 
检查 最 后 一 个 扩张 因子 是 不 是 新 的 高 值 。 如 果 是 ， 则 将 它 和 产生 它 的 a 一 起 记录 下 来 。 

现在 来 考虑 工作 队列 的 行为 。 首 先 ， 注意 虽 然 P 个 子 序列 相当 于 是 被 同时 检查 的 ， 但 它们 
并 不 会 保持 锁 步 ， 因 为 每 个 检查 所 需 的 工作 量 不 尽 相 同 。 例 如 ， 对 于 4 个 进程 ， 队 列 在 开始 时 
可 能 通过 如 下 状态 进行 转换 ， 其 中 最 近 的 赋值 以 粗 体 字 表 示 : 


工作 队列 活跃 进程 

1,2,3,4 一 

2,3,4,5 Po[1] 

3,4,5,6 Po[2] 

4,5,6,7 Po[2], Pi[3] 

5,6,7,8 Po[2], Pi[3], Pa[4] 
6,7,8,9 Po[5], Pi[3], P2[4] 
7,8,9, 10 Po[5], Pi[3], P2[4], Ps[6] 


我 们 看 到 ， 由 于 对 1 的 处 理 很 容易 ， 因 此 Po 甚至 有 可 能 在 其 他 任意 进程 开始 之 前 ， 就 返回 
队列 去 获取 下 一 个 值 2。 同 样 ， 对 2 的 处 理 也 很 容易 ， 因 此 Po 会 再 次 迅速 返回 。 同 时 也 应 注意 
工作 者 不 必 处 理 一 个 有 类 似 间隔 的 子 序列 。 实 际 上 ， 如 果 定 时 合适 ， 则 所 有 进程 都 能 同时 在 
同一 子 序列 上 工作 。 简 而 言 之 ， 虽 然 我 们 的 工作 队列 是 编组 的 ， 但 是 其 自然 动态 性 使 得 它 允 
许 包 容许 多 不 同 的 定时 特性 。 


5.5.2 工作 队列 的 变 体 


有 许多 工作 队列 的 变 体 。 从 算法 上 来 说 ， 队 列 中 的 元 素 不 必 一 定 非 要 以 先进 先 出 (FIFO) 
的 次 序 进行 处 理 ， 可 以 按 后 进 先 出 《LIFO)、 随 机 或 优先 级 的 次 序 ， 而 且 每 一 种 都 有 其 特定 
的 用 途 。 

工作 队列 的 具体 使 用 也 能 基于 不 同 的 工作 粒度 而 发 生变 化 。 在 我 们 的 例子 中 ， 我 们 假设 
工作 单元 是 单个 工作 描述 符 ， 正 如 同 在 Collatz 猜 想 问 题 中 那样 ， 它 应 当 尽 可 能 的 小 。 但 是 ， 
如 同 我 们 曾 在 第 3 章 中 提 到 的 ， 工 作 粒 度 体 现 了 折 中 。 细 粒度 会 增加 队列 操作 的 开销 ， 会 增加 
竞争 的 可 能 性 ， 而 粗 粒度 会 增加 遭受 负载 不 平衡 的 机 会 。 

一 个 试图 在 开销 与 负载 不 平衡 之 间 获 取 平 衡 的 策略 是 使 用 可 变 粒 度 大 小 ， 它 与 队列 中 元 
素数 成 比例 。 当 队列 为 满 时 ， 线 程 或 进程 会 抓 取 大 块 的 工作 ,假设 队列 中 有 足够 多 的 工作 能 
保证 所 有 进程 都 在 忙碌 。 当 队列 中 元 素数 减少 时 ， 粒 度 大 小 也 会 随 之 变 小 。 

迄今 为 止 ， 我 们 所 考虑 的 仅 是 单个 工作 队列 ， 它 当然 是 不 可 扩展 的 。 一 个 可 扩展 的 策略 
是 使 用 多 个 队列 ， 使 每 个 线程 或 进程 被 分 配 到 不 同 的 队列 或 队列 集 。 此 种 方法 将 减少 竞争 ， 
但 如 果 线 程 在 找到 一 个 非 空 队列 之 前 需要 先 检查 多 个 队列 ， 则 它 将 增加 时 延 。 多 个 队列 的 使 
用 也 会 引入 负载 平衡 的 问题 。 当 一 个 队列 为 空 而 其 他 队列 非 空 时 ， 将 会 发 生 什 么 ? 一 个 解决 
方案 是 让 线程 从 其 他 队列 中 获取 尚未 分 配 的 工作 ， 这 个 行为 通常 被 称 为 工作 窃取 。 


5.5.3 案例 研究 : 并 发 存储 器 分 配 


考虑 为 对 称 多 处 理 器 实现 一 个 存储 器 分 配器 (allocator) 的 问题 。 存 储 器 分 配器 在 接收 到 
一 个 分 配 存储 器 的 请 求 后 ， 会 返回 一 个 所 请 求 大 小 的 存储 块 地 址 。 好 的 分 配器 会 随 着 处 理 器 
的 数量 而 扩 缩 ， 会 避免 假 共 享 ， 会 有 效 使 用 虚拟 存储 器 。 另 外 一 些 目标 诸如 较 少 的 碎片 《 空 
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闲 的 存储 器 不 应 被 分 割 成 许多 的 小 片段 )， 当 然 也 是 很 重要 的 ， 但 为 了 简单 起 见 ， 我 们 将 在 本 
次 讨论 中 忽略 这 些 问 题 。 
在 解释 一 个 优秀 的 解决 方案 之 前 ， 我 们 先 来 解释 一 些 之 前 的 解决 方案 以 及 它们 所 存在 的 
问题 
。 最 简单 的 解决 方案 是 使 用 单个 堆 来 满足 所 有 的 请 求 。 但 当 有 多 个 处 理 器 访问 该 堆 时 ， 随 
着 进程 数 的 增加 ， 对 该 堆 及 其 互 斥 体 的 竞争 将 会 成 为 瓶颈 。 
。 常 见 的 第 二 种 解决 方案 是 为 每 个 处 理 器 配备 一 个 私有 堆 。 因 为 没有 共享 ， 所 以 这 些 堆 也 
不 需要 锁 。 但 这 种 方案 会 导致 无 限制 的 存储 器 分 配 〈 甚 至 当 使 用 了 有 限 数量 的 存储 器 时 
亦 是 如 此 ) ， 这 将 最 终 破坏 程序 。 为 了 证 实 这 一 点 ， 考 虑 两 个 处 理 器 p 和 < 之 间 存 在 生产 
者 和 消费 者 的 关系 。 处 理 器 p 将 分 配 那些 被 < 消耗 的 存储 器 。 当 < 用 完 某 块 存储 器 之 后 ， 
它 会 将 其 释放 ， 并 将 其 返回 给 c 的 私有 堆 。 由 于 p 从 不 会 访问 那些 空闲 存储 器 ， 因 此 它 必 
须 继续 分 配 存储 器 以 满足 每 个 对 p 的 请 求 ， 而 这 将 最 终 导致 无 限制 的 存储 器 分 配 。 
。 第 三 种 解决 方案 通过 使 用 具有 所 有 权 的 私有 堆 以 避免 存储 器 分 配 的 无 限制 增长 ， 这 意味 
着 每 片 存储 器 都 是 由 所 分 配 的 处 理 器 拥有 的 ， 因 此 当 它 被 释放 后 ， 它 将 返回 到 拥有 它 的 
处 理 器 的 堆 中 。 因 此 在 我 们 生产 者 和 消费 者 的 场景 中 ，c 将 返回 存储 器 到 p 的 堆 中 。 由 于 
p 能 重用 之 前 它 分 配 的 存储 器 ， 因 此 我 们 不 会 再 看 到 存储 器 分 配 的 无 限制 增长 。 该 解决 
方案 的 问题 在 于 没有 共享 空闲 存储 器 ， 因 此 当 一 个 处 理 器 分 配 存 储 器 时 ， 其 他 处 理 器 都 
无 法 从 中 获 益 。 所 以 该 方案 将 导致 存储 器 分 配 的 P 倍 增长 。 考 虑 有 P 个 处 理 器 在 生产 者 
-消费 者 的 关系 中 形成 链 的 例子 ， 此 时 处 理 器 i mod P 将 分 配 一 块 存储 器 块 ， 而 处 理 器 
(i+1) mod P 将 释放 该 块 。 在 此 种 情况 下 ， 单 个 块 会 由 处 理 器 0 产生 ， 而 且 从 概念 上 讲 ， 
可 以 在 各 个 处 理 器 之 间 流 转 ， 直 至 它 回 到 处 理 器 0， 因 为 当 它 一 旦 被 释放 就 立即 会 被 另 
一 个 处 理 器 分 配 。 因 此 在 理想 的 系统 中 ， 有 可 能 在 整个 来 回 过 程 中 只 分 配 和 重用 了 单个 
块 ， 但 实际 上 具有 所 有 权 的 私有 堆 会 为 每 个 处 理 器 分 配 一 块 存储 器 块 ， 共 P 块 。 因 子 P 
的 增长 是 非常 显著 的 。 例 如 ， 在 一 个 32 位 地 址 空间 的 16 个 处 理 器 的 机 器 上 ， 每 个 处 理 器 
在 用 完 虚 拟 存储 器 之 前 ， 各 自 只 能 分 配 到 容量 不 大 的 1283MB 存 储 器 。 
。 某 些 存储 器 分 配器 会 在 从 同一 cache 行 分 配 存储 器 给 不 同 处 理 器 时 ， 引 入 假 共享 。 我 们 
当然 知道 可 以 通过 扩展 存储 器 的 分 配 ， 即 让 它们 的 大 小 是 多 倍 cache 行 的 大 小 ， 以 此 来 
避免 假 共 享 。 但 分 配器 却 不 能 执行 这 种 扩展 ， 因 为 这 会 显著 增加 所 分 配 的 存储 器 总 量 。 
Hoard 存 储 器 分 配器 通过 应 用 以 下 两 个 原则 ， 解 决 了 上 述 这 些 问 题 ， 
1. 限制 本 地 存储 器 的 使 用 。 如 果 一 个 私有 堆 变 得 太 大 ， 它 会 移 一 些 块 到 全 局 堆 中 ， 而 全 
局 堆 是 能 被 其 他 堆 所 访问 的 。 尤 其 是 ， 当 一 个 堆 为 空 时 ， 在 分 配 新 块 之 前 ， 它 会 先 尝试 使 用 
全 局 堆 中 的 存储 器 来 满足 分 配 请 求 。 
2. 以 大 块 的 方式 管理 存储 器 。 大 块 的 使 用 将 减少 假 共 享 ， 并 减少 对 全 局 堆 的 竞争 。 
虽然 忽略 了 许多 细节 ， 但 我 们 仍 能 如 下 总 结 Hoard 存 储 器 分 配器 的 优势 。 多 个 私有 堆 的 使 
用 提供 了 能 随处 理 器 数 扩 缩 的 并 发 性 ， 全 局 堆 的 使 用 提供 了 负载 平衡 的 机 制 ， 使 空闲 的 页 面 
不 会 堆积 在 私有 堆 中 ， 大 块 的 使 用 遵循 了 我 们 增 大 粒度 以 减少 开销 和 竞争 的 通用 性 原则 。 
Hoard 存 储 器 分 配器 在 许多 现 有 操作 系统 中 都 常用 到 ， 包 括 Solaris，Linux 和 Windows， 也 有 
许多 使 用 Hoard 存 储 器 分 配器 之 后 (借助 于 它 能 更 有 效 使 用 存储 器 的 特点 ) 显著 提升 程序 性 能 共 
实例 。 此 外 ，Hoard 存 储 器 分 配器 已 被 证 实 可 用 来 约束 存储 器 出 帘 以 及 保持 较 低 的 同步 开销 。 
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5.6 树 


树 是 重要 的 数据 结构 ， 因 为 它 体现 了 层次 的 结构 。 例 如 ，kd- 树 能 用 于 图 像 绘制 和 重力 仿 
真 中 ， 它 将 空间 划分 为 层次 的 单元 。 树 结构 使 得 算法 能 在 与 树 高 成 正比 的 时 间 内 找到 在 该 空 
间 中 的 项 。 

树 对 并 行 计算 提出 了 多 个 挑战 。 第 一 ， 树 通常 使 用 指针 来 构建 。 在 不 提供 共享 存储 器 的 
语言 中 ， 指 针 只 对 一 个 进程 是 本 地 的 。 第 二 ， 我 们 通常 出 于 树 的 动态 灵活 性 而 使 用 它 ， 但 动 
态 行为 通常 也 意味 着 存在 大 量 限制 性 能 的 通信 。 第 三 ， 一 些 非 结构 化 的 树 使 得 推断 通信 和 负 
载 平衡 变 得 极为 困难 。 但 无 论 有 多 大 挑战 ， 树 确实 非常 有 用 ， 因 此 无 法 将 其 忽略 。 


5.6.1 按 子 树 分 配 


最 大 化 大 块 独立 计算 数 的 方针 也 适用 于 树 ， 正 如 同 我 们 希望 将 整 棵 子 树 分 配 到 单个 进程 。 
例如 ， 我 们 能 复制 称 为 “帽子 ”的 树 顶 ， 然 后 将 它 的 一 个 副本 和 一 棵 子 树 分 配 到 P 个 不 同 的 进 
程 之 一 ， 如 图 5-18 中 所 示 。 如 果子 树 间 没 有 通信 ， 我 们 就 得 到 了 一 个 可 扩展 的 解决 方案 。 


图 5-18 AP = 8 个 进程 的 二 又 树 分 配 帽 子 。 每 个 进程 分 配 到 一 个 叶子 树 ， E S T (用 阴影 
表示 ) 


针 子 分 配 是 高 效 的 ， 因 为 帽子 接近 于 根 结 点 ， 对 于 树 的 其 余部 分 而 言 相 对 较 小 。 而 且 ， 
由 于 根 结 点 和 它 的 直接 后 代 在 所 有 进程 上 都 可 用 ， 那 些 需 要 通过 根 结 点 传递 的 交互 就 能 使 用 
本 地 数据 来 识别 正确 的 目标 子 树 。 通 过 目标 子 树 的 导航 通常 作为 一 个 任务 ， 分 配给 其 所 有 者 。 
作为 额外 的 优点 ， 在 重力 仿真 的 高 级 算法 中 ， 问 题 的 大 块 区 域 聚合 成 “元 点 (meta-point)”, 
根 结 点 周围 的 点 就 有 可 能 成 为 所 有 的 元 点 ， 因 此 一 旦 创建 后 就 是 只 读 的 ， 这 消除 了 通信 ， 竞 
态 条 件 以 及 锁 等 一 系列 问题 。 当 然 ， 当 计算 进行 时 ， 帽 子 中 的 变化 必须 在 进程 间 保 持 一 致 ， 
这 意味 着 所 有 进程 都 必须 看 到 相同 的 状态 。 反 之 ， 如 果树 顶 被 频繁 修改 ， 就 应 当 将 其 以 各 种 
方式 分 布 在 各 进程 中 。 

当 整 棵 树 在 计算 开始 时 枚 举 时 ， 或 是 当 结 点 以 层次 顺序 的 方式 生成 时 ， 上 述 这 种 分 配方 

会 很 有 效 。 例 如 ， 图 5-19a 显 示 了 如 何 将 一 棵 二 又 树 分 配 到 8 个 进程 ， 而 图 5- 19b 显 示 了 如 何 
将 同一 棵 树 分 配 到 6 个 进程 。 

游戏 搜索 举例 ”以 子 树 方式 进行 分 配 ， 对 那些 能 递归 分 解 为 子 问题 的 问题 会 比较 有 效 。 

例如 ， 假 设 我 们 在 P=4 个 进程 上 搜索 Tic-Tac-Toc( 围 和 又 ) 游 戏 树 。 考 虑 到 对 称 性 ， 则 只 

有 3 个 初始 位 置 ， 我 们 扩展 其 中 之 一 以 生成 第 4 个 搜索 任务 (参见 图 5-20)， 也 即 是 各 个 

进程 将 从 所 指示 的 板 位 置 开始 搜索 游戏 树 的 后 代 。 
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a) b) 


图 5-19 逻辑 树 的 表示 : a) P= 8 时 的 二 叉 树 ，b) P= 6 时 的 二 又 树 





图 5-20 枚 举 Tic-Tac-Toe 游 戏 树 ， 每 个 进程 被 分 配 来 搜索 以 四 个 初始 移动 序列 之 一 开始 的 游戏 


5.6.2 动态 分 配 


某 些 树 以 不 可 预测 的 方式 动态 进行 分 配 ， 而 另 一 些 树 则 具有 不 平衡 的 深度 。 例 如 在 游戏 
搜索 中 经 常会 用 到 带 alpha-beta 修 剪 的 搜索 ， 它 将 基于 之 前 看 到 的 结果 ， 修 剪 掉 一 部 分 层次 搜 
索 空 间 ， 这 将 导致 带 有 叶 结 点 的 搜索 树 有 不 同 的 深度 。 在 这 种 情况 下 ， 可 使 用 工作 队列 ， 队 
列 中 的 项 表示 未 分 配 的 树 结 点 。 相 同 的 折 圳 原则 曾 在 动态 分 配 进程 工作 一 节 中 讨论 过 ， 也 可 
以 在 此 处 应 用 。 当 然 ， 在 alpha-beta 修 剪 这 个 例子 中 ， 需 要 有 某 种 通信 机 制 用 来 在 进程 之 间 通 
信之 前 的 结果 。 这 些 结果 可 使 用 共享 存储 器 或 某 种 组 合 树 进行 通信 。 


5.7 小 结 


本 章 中 ， 我 们 讨论 了 开发 可 扩展 并 行 计算 所 需 的 算法 技术 和 分 配 技术 。 首 先 讨 论 了 通用 
归 约 和 扫描 抽象 的 强大 功能 ， 然 后 讨论 了 为 进程 分 配 工 作 的 不 同方 法 。 我 们 看 到 了 一 个 贯穿 
于 全 章 、 隐 含 的 简单 指导 性 原则 (识别 出 大 的 独立 计算 块 )， 同 时 也 看 到 了 有 时 负载 平衡 问题 
会 如 何 干扰 该 目标 。 
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BOINC 项 目 还 列 出 了 许多 其 他 类 似 的 问题 ) 。 Lander 和 Fischer[1980] 提 出 了 并 行 前 缀 算法 的 
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习题 

重 做 图 5-2 中 的 Schwartz 模 板 。 原 图 中 使 用 了 二 叉 树 ， 重 做 时 要 使 树 的 扁 出 度 4>2。 假设 P 和 a 都 

是 2 的 短 。 

重 做 图 5-2 中 的 Schwartz 模 板 。 这 次 假设 P 不 是 2 的 等 ， 其 余 要 求 与 习题 1 相同 。 

使 用 Schwartz 方 法 ， 编 写 一 个 并 行程 序 ， 用 以 确定 在 对 应 于 MIPS 机 器 指令 的 一 串 二 进 制 字 

(word) 的 序列 中 ， 所 包含 的 之 后 跟 有 空 操作 指令 (定义 为 全 0 的 一 个 字 ) 的 分 支 (branch) 指 

令 (定义 为 一 个 字 中 的 bitzs ==1) 数 。 

- 修改 图 5-17 中 Collatz 猜 想 的 代码 ， 批 处 理 1000 个 数 。 

- 编写 一 个 Peril-L 程 序 执行 图 $-10 中 所 示 的 操作 ， 即 在 数据 数组 A 中 一 个 给 定 的 区 域 上 ， 完 成 4 个 

点 的 模板 计算 。 设置 包括 重 肥 区域 在 内 的 本 地 存储 器 ， 并 假设 数据 最 初 是 被 分 配 到 本 地 数组 的 

内 部 。 设 置 全 局 数据 结构 ， 以 多 许 “ 相 邻 ”线程 交换 边界 元 素 。 要 包括 交换 的 逻辑 。 提 示 ， 满 / 

空 变量 能 管理 相 邻 线程 之 间 的 交换 。 

6. 编写 一 个 Peril-L 程 序 计 算 longest_run_of 1s/ A。 

7. 编写 一 个 Peril-L 程 序 计算 team_standings\ A, 

8. 假设 如 边界 框 的 例子 一 样 ， 需要 依次 计算 4 个 归 约 。 编写 一 个 Peril-L 程 序 ， 它 能 将 4 个 归 约 合并 
成 1 个 。 

9. 使 用 B+ 树 的 标准 定义 (依照 串 行 算法 书 中 所 给 出 的 )， 用 共享 幅 子 实现 该 数据 结构 。 

10. 在 使 用 共享 帽子 实现 B+ 树 数据 结构 之 后 ， 编写 代码 使 得 P 个 进程 中 的 每 一 个 从 工作 队列 中 取出 
查询 ， 如 果 (a) 该 查询 是 针对 本 进程 所 管理 的 树 的 一 部 分 ， 则 回答 所 有 成 员 的 询问 ， 否 则 (b) 将 
该 查询 放 到 指定 的 管理 相应 树 部 分 (其 中 含有 所 要 查询 的 相应 信息 ) 的 那个 进程 的 队列 中 。 


— 


N 


w 


wm 上 


在 前 几 章 基础 性 的 介绍 中 ， 我 们 抽象 地 建立 了 直观 认识 ， 介 绍 概念 的 形式 与 特定 的 计算 
机 或 程序 设计 语言 基本 无 关 。 现 在 我 们 准备 讨论 一 些 实际 的 并 行程 序 设计 语言 ， 编 写 程序 并 
运行 。 我 们 将 介绍 多 种 不 同方 法 ， 包 括 那些 在 实践 过 程 中 最 常用 到 的 方法 。 特 别 地 ， 我 们 将 
考虑 两 种 基本 方法 : 线程 和 消息 传递 ， 以 及 多 种 高 级 语言 。 

线程 的 概念 源 自 操作 系统 社区 。 现 今 随 着 多 核 芯片 的 出 现 ， 人 们 对 基于 线程 的 程序 设计 
的 兴趣 日 益 浓厚 。 我 们 将 介绍 可 能 是 目前 应 用 最 广泛 的 系统 POSIX Threads， 并 通过 它 来 阐明 
基于 线程 的 程序 设计 中 的 一 些 主要 问题 。 我 们 还 将 简单 讨论 OpenMP 以 及 Java 支 持 线程 的 能 力 ， 
这 两 种 是 基于 线程 的 程序 设计 的 更 高 级 方法 。 

对 于 大 型 并 行 计算 机 ， 消 息 传递 是 使 用 最 广泛 的 程序 设计 方法 。 它 诞生 自 科 学 计算 社区 。 
消息 传递 最 主要 的 抽象 是 它 对 分 布 式 存储 器 并 行 计算 机 的 适用 性 。 有 两 种 广泛 使 用 的 消息 传 
递 库 : 并 行 虚 拟 机 (Paralllel Virtual Machine， 即 PVM) 和 消息 传递 接口 (Message Passing 
Interface， 即 MPI) 。 它 们 在 实现 细节 上 或 有 所 不 同 ， 但 就 能 力 而 言 ， 两 者 是 相当 的 ， 因 此 我 
们 将 只 介绍 MPI。 另 外 ， 我 们 还 将 扼要 介绍 适合 在 分 布 式 存储 器 机 器 上 进行 程序 设计 的 三 种 
相关 更 高 等 级 语言 ; Co-Array Fortran (CAF), Unified Parallel C (UPC) 和 Titanium 。 

迄今 为 止 ， 尚 没有 一 种 广泛 使 用 的 高 级 并 行程 序 设 计 语 言 ， 但 相信 和 总 有 一 天 会 有 的 。 这 
个 信念 驱使 着 我 们 继续 深入 研究 ， 因 此 我 们 将 介绍 ZPL 语 言 。 我 们 主要 感 兴趣 的 是 ZPL 语 言 的 
能 力 ， 即 它 能 给 予 程序 员 对 其 代码 的 并 行 行 为 有 个 合理 、 细 致 的 理解 ， 又 提供 了 高 级 抽象 的 
概念 。 这 个 正 是 我 们 希望 在 未 来 高 级 并 行 语言 中 看 到 的 特性 之 一 。 这 一 章 最 后 ， 我 们 还 将 介 
绍 另 一 个 更 加 高 级 的 并 行 语言 NESL。 i 

最 后 ， 在 了 解 了 9 个 不 同 的 程序 设计 系统 后 ， 我 们 专门 辟 出 了 较 短 的 第 9 章 ， 用 以 比较 和 
对 比 这 些 不 同 的 系统 ， 同 时 也 作为 今后 进一步 研究 以 及 开发 并 行 语 言 的 起 点 。 


第 6 章 线程 程序 设计 


本 章 将 讨论 为 共享 地 址 空间 的 计算 机 编写 程序 的 方法 。 这 类 重要 的 计算 机 特别 值得 注音 ， 
因为 很 快 它们 就 将 随处 可 见 。 我 们 将 首先 详细 讨论 POSIX Threads (Pthreads) 接口 ， 它 就 是 
我 们 在 第 1 章 计 3 程 序 中 所 使 用 的 关键 性 接口 。 我 们 的 目的 是 要 了 解 Pthreads 程 序 员 将 要 面 对 的 
重要 概念 和 问题 。 在 研究 了 关注 于 如 何 获得 优秀 性 能 的 三 个 案例 之 后 ， 我 们 将 结束 对 Pthreads 
的 讨论 。 此 后 我 们 将 简单 讨论 另外 两 个 线程 程序 设计 方法 ，Java Threads 和 OpenMP， 它们 都 
试图 隐藏 Pthreads 的 一 些 复杂 性 。 


6.1 POSIX Threads 


我 们 介绍 POSIX Threads 有 两 个 目的 。 首 先是 为 了 提供 关于 POSIX Threads 标 准 足 够 具体 
的 细 市 ， 这 样 读者 就 能 开始 编写 Pthreads 程 序 ， 其 次 是 虽然 模型 中 的 设施 (facility) 单独 而 言 
都 很 简单 ， 但 整个 程序 设计 的 模型 却 会 有 许多 重要 的 性 能 问题 和 正确 性 问题 ， 其 中 有 些 还 是 
相当 微妙 的 ， 所 以 要 在 这 里 解释 。 为 了 达到 这 两 个 目的 ， 本 章 虽然 不 能 介绍 Pthreads 接 口 的 每 
一 个 细节 ， 但 仍 会 以 一 定 深度 介绍 Pthreads 标 准 。 我 们 将 首先 介绍 创建 线程 和 控制 线程 间 交 互 
的 基本 机 制 ， 然 后 讨论 安全 性 问题 和 性 能 问题 ， 最 后 关注 于 POSIX Threads 使 用 过 程 中 可 能 会 
遇 到 的 一 些 实际 问题 。 

在 线 Pthreads 教 程 想 了 解 Pthreads 的 更 多 细节 ， 和 包括 例子 和 文档 ， 请 参考 美国 

Lawrence Livermore 实 验 室 的 网 页 : http://www.llnl.gov/computing/tutorials/pthreads/ 


6.1.1 线程 的 创建 和 销毁 
考虑 下 列 代码 ， 


1 #include <pthread.h> 
2 int err; 


3 

4 void main() 

5 { 

6 pthread t tid[MAX]; /* 线程 ID 的 数组 ， 每 个 */ 

7 /* 创建 的 线程 对 应 数组 的 一 个 元 素 */ 
8 

9 for(i=0; i<t; i++) 

10 { 

11 err=pthread_create(&tid[i], NULL, count3s_thread, i); 
12 } 

13 

14 for(i=0; i<t; i++) 

15 { 

16 err=pthread_join (tid[i], (void **)&status[i]) 
17 } 

18 } 


这 段 代码 展示 了 main() 函 数 ， 它 在 第 1 个 循环 中 创建 并 初始 化 了 t 个 线程 ， 然 后 在 第 2 个 特 
环 中 等 待 这 ! 个 线程 结束 。 我 们 通常 称 创建 的 线程 为 父 线程 ， 被 创建 的 线程 为 子 线程。 
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这 段 代码 与 第 1 章 中 的 伪 代 码 在 细节 上 略 有 不 同 。 第 1 行 包 括 了 Pthreads 的 头 文件 ， 而 头 文 
件 中 声明 了 各 种 Pthreads 例 程 和 数据 类 型 。 每 个 创建 的 线程 都 需要 有 自己 的 线程 ID ， 因 此 在 第 
6 行 声 明了 这 些 线程 ID。 为 了 创建 线程 ， 我 们 调用 了 pthread_create() 例 程 ， 它 有 4 个 参数 ( 参 
见 代码 规范 6.1) ; 

1. 指向 线程 卫 的 指针 。 当 该 线程 成 功 创建 并 返回 时 ， 它 将 指向 一 个 有 效 的 线程 ID。 

2. 线程 属性 (attribute) 。 稍 后 讨论 ， 在 这 个 例子 中 ， 默 认 属性 为 NULL 值 。 

3. 指向 起 始 函 数 的 指针 。 起 始 函 数 是 线程 创建 后 立即 执行 的 函数 。 

4. 一 个 传递 给 起 始 函 数 的 参量 (argument) 。 在 这 个 例子 中 ， 它 表示 位 于 0 与 ~1 之 间 的 一 
个 唯一 整数 ， 该 整数 与 各 线程 相关 。 . 

第 16 行 的 循环 调用 了 pthread join(0) 以 等 待 每 个 子 线程 的 终止 。 如 果 无 需 等 待 子 线程 结束 ， 
main() 函 数 可 以 通过 调用 pthread_exit() 结 束 并 退出 ， 而 子 线程 仍 能 继续 执行 。 否 则 当 mainO 函 
数 结束 时 ， 由 于 整个 进程 被 终止 ， 会 导致 子 线程 自动 终止 。 参 见 代 码 规范 6.2。 

代码 规范 6.1 pthread_create()。POSIX Threads 中 用 来 创建 线程 的 函数 


pthread_create() 


int pthread_create( // 创建 新 线程 


















pthread t *tid, // 线程 ID 
const pthread_attr_t *attr, // 线程 属性 
void *(*start routine) (void *), // 指向 所 要 执行 函数 的 指针 
void *arg // 要 传递 给 该 国 数 的 参量 
); 
参量 ， 
* 创建 成 功 的 线程 ID。 


* 线程 属性 ， 稍 后 会 解释 。 默 认 属 性 为 NULL 值 。 

“新 线程 创建 后 立即 执行 的 函数 。 

“要 传递 给 start_rountine(O) 的 参量 。 
返回 值 ; 

如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 
注释 : 
使 用 一 个 结构 可 以 向 起 始 函 数 传递 多 个 参量 。 








代码 规范 6.2 pthread_join(), POSIX Threads 中 用 来 结合 线程 的 函数 










pthread join() 

int pthread join( // 等 待 线程 的 终止 
pthread t tid, // 所 要 等 待 线 程 的 ID 
void **status // 退出 状态 

); 

Se. 
“ 所 要 等 待 线程 的 ID 。 
e 如果 status 不 为 NULL， 退 出 线程 的 完成 状态 将 被 复制 到 *status 中 ， 和 否则， 完成 状 

态 将 不 会 复制 。 
返回 值 ， 


如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 
LL 
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线程 一 旦 结合 后 ， 它 将 不 再 存在 ， 其 线程 ID 也 不 再 有 效 ， 也 不 能 再 与 其 他 线程 结合 。 


线程 ID ”每 个 线程 都 有 一 个 pthread_t 类 型 的 唯一 ID。 与 所 有 Pthreads 数 据 类 型 一 样 ， 线 程 
ID 必须 作为 不 透明 类 型 对 待 ， 即 决 不 能 直接 访问 该 数据 结构 中 的 各 个 字段 。 子 线程 并 不 知道 
自己 的 ID ， 但 pthread_selfO 例 程 能 允许 线程 获得 自己 的 ID ， 而 pthread_equal() 例 程 能 用 来 比较 
2 个 线程 的 ID。 参 见 代码 规范 6.3 和 6.4。 

代码 规范 6.3 pthread_self()。POSIX Threads 中 用 来 获得 线程 ID 的 函数 





pthread_self() 
pthread t pthread_self(); // 获得 线程 自己 的 ID 
返回 值 : 

调用 了 该 函数 的 线程 的 ID。 





代码 规范 6.4 pthread_equal()。POSIX Threads 中 用 来 比较 2 个 线程 ID 等 同性 的 函数 









pthread equal() 





int pthread_equal( // 测试 等 同性 
pthread t tl, // 第 1 个 操作 数 线程 ID 
pthread 七 t2 // 第 2 个 操作 数 线程 ID 






); 


Sh. 
2 个 线程 ID。 

返回 值 ， 

* 如果 这 2 个 线程 ID 相 同 ， 则 返回 非 0 值 (遵循 C 语 言 规范 )。 

* 如 果 这 2 个 线程 ID 不 同 ， 则 返回 0。 


销毁 线程 有 三 种 方法 可 以 销毁 线程 

1. 线程 从 起 始 例 程 返 回 。 

2. 线程 调用 pthread_exit()， 参 见 代码 规范 6.5。 

3. 线程 被 另 一 线程 取消 。 

在 各 种 情况 中 ， 当 线程 被 销毁 后 ， 其 资源 就 不 再 可 用 。 

代码 规范 6.5 pthread_exit(), POSIX Threads 中 用 来 终止 线程 的 函数 
void pthread_exit() 


void pthread exit( // 终止 线程 
void *status // 完成 状态 
); 
SR: 
已 退出 的 线程 的 完成 状态 。 该 指针 值 可 供 其 他 线程 使 用 。 









i EME: 


无 。 
注释 : 
当 线 程 通过 从 起 始 例 程 简单 返回 的 方式 退出 时 ， 线 程 的 完成 状态 将 被 设 为 起 始 例 程 
的 返回 值 。 





a 
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线程 属性 ”每 个 线程 有 自己 的 特性 (property) ， 称 为 属性 (attribute), HELE 
pthread_attr_t 类 型 的 结构 中 。 例 如 线程 可 以 是 分 离 的 (detached)， 或 是 可 结合 的 (joinable ) ， 
分 离 的 线程 不 能 与 其 他 线程 结合 ， 因 此 它们 在 某 些 POSIX Threads 实 现 上 有 较 少 的 开销 。 对 于 
并 行 计算 ， 我 们 很 少 使 用 分 离 的 线程 。 线 程 也 可 以 是 约束 的 (bound ) ， 或 是 不 受 约束 的 
(unbound) 。 约 束 的 线程 由 操作 系统 进行 调度 ， 而 不 受 约束 的 线程 则 由 Pthreads 库 进行 调度 
(参见 稍 后 关于 线程 调度 小 节 ) 。 对 于 并 行 计算 ， 我 们 通常 使 用 约束 的 线程 ， 这 样 各 线程 均 能 
提供 物理 并 发 性 。 POSIX Threads 提 供 了 多 个 例 程 用 来 初始 化 线程 属性 、 REBAR Et, 
参见 代码 规范 6.6。 

代码 规范 6.6 在 POSIX Threads 接 口中 如 何 设 置 线程 属性 的 例子 


线程 属性 










pthread attr_t attr; /4 声明 线程 属性 
Pthread t tid; 

pthread_attr_init(sattr); // 初始 化 线程 属性 
pthread_attr_setdetachstate(sattr, // 设置 线程 属性 







PTHREAD_CREATE UNDETACHED ); 
pthread create(&tid, &attr, start_func, NULL); // 使 用 属性 创建 线程 
pthread join(tid, NULL); 
pthread_attr_destroy(éattr); // 销毁 线程 属性 
注释 : 

还 有 许多 其 他 线程 属性 ， 具 体 细 节 可 参见 POSIX Threads Fih. 


潜在 的 陷阱 ”以 下 的 例子 说 明了 由 于 父子 线程 之 间 存 在 交互 ， 从 而 导致 了 潜在 的 陷阱 。 
父 线程 简单 地 创建 一 个 子 线程 ， 并 等 待 该 子 线程 的 退出 。 子 线程 做 一 些 有 用 的 工作 ， 然 后 退 
出 ， 并 返回 错误 码 。 你 能 看 出 在 这 段 代码 中 存在 什么 错误 吗 ? 


1 #include <pthread.h> 












void main() 


3 

4 

5 pthread t tid; 
6 int *status; 

7 
8 


pthread_create(&tid, NULL, start, NULL); 


9 pthread_join(tid, (void *)&status); 
10 } 

11 

12 void start() 

13 4 

14 int errorcode; ` 

15 /* 做 一 些 有 用 的 事 */ 

16 

17 if(. ..) 

18 { 

19 errorcode=something; 

20 

21 pthread_exit(&errorcode); 
22 } 


问题 就 发 生 在 第 21 行 调用 pthread_exit()， 子 线程 试图 返回 错误 码 给 父 线程 时 。 由 于 
errocode 已 声明 为 start0) 函 数 的 局 部 变量 ， errocode 的 存储 器 就 被 分 配 在 子 线程 的 栈 上 。 当 子 线 
程 退出 后 ， 它 的 调用 栈 取 消 ， 因此 父 线程 就 有 了 一 个 指向 errocode 的 虚 悬 指 镍 (dangling 
pointer) 。 将 来 的 某 一 时 刻 ， 当 一 个 新 过 程 调用 时 ， 它 将 改写 errocode 所 在 栈 的 位 置 ， 使 得 
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errocode 的 值 发 生 改 变 。 
6.1.2 BF 


为 了 使 线程 进行 结构 化 的 交互 ， 我 们 需要 有 协调 交互 的 方法 。 特 别 当 两 个 线程 共享 的 访 
问 存储 器 时 ， 通 常 比较 有 用 的 是 使 用 称 为 互 斥 体 (mutex) 的 锁 ， 用 以 提供 对 变量 的 互 斥 访问 ， 
ERRAZ (Mutual Exculsive) 。 如 果 没 有 互 斥 ， 竞 态 条 件 就 将 导致 无 法 预测 的 结果 。 如 同 我 
们 在 第 1 章 中 所 看 到 的 ， 当 有 多 个 线程 执行 以 下 代码 时 ， 在 所 有 线程 间 共 享 的 count 变 量 将 不 
会 原子 地 更 新 。 


for(i=start; i<start+length_per_ thread; i++) 
if(array(i]==3) 


count++; 
} 
} 


解决 的 方法 自然 是 使 用 互 斥 体 来 保护 count 的 更 新 ， 如 下 所 示 : 


1 pthread mutex t lock=PTHREAD MUTEX INITIALIZER; 
if(array[i]==3) 


2 

3 

4 pthread mutex lock(&lock); 

5 count++; 

6 pthread_mutex_unlock( &lock); 
7 } 


第 1 行 说 明 互 斥 体能 被 静态 的 声明 (参见 代码 规范 6.7) 。 与 线程 相似 ， 互 斥 体 也 有 属性 。 
通过 将 互 斥 体 初始 化 为 PTHREAD_MUTEX_INITIALIZER ， 互 斥 体 就 拥有 了 软 认 属性 。 为 了 
使 用 互 斥 体 ， 它 的 地 址 分 别传 递 给 第 4 行 的 加 锁 例 程 和 第 6 行 的 解锁 例 程 。 当然 ， 恰 当 的 做 法 
是 将 所 有 临界 区 ( 即 代码 每 次 只 能 被 一 个 线程 原子 地 执行 ) 用 括号 括 起 来 ， 这 可 以 通过 用 一 
个 互 斥 体 在 进入 处 加 锁 ， 用 另 一 个 互 斥 体 在 离开 处 解锁 的 方法 加 以 实现 任何 时 候 ， 只 能 有 
一 个 线程 获得 互 尺 体 。 如 果 某 线程 试图 获得 一 个 已 经 为 另 一 线程 获得 的 互 斥 体 ， 它 将 被 阻塞 ， 
当 互 斥 体 解锁 或 释放 时 ， 一 个 阻塞 在 那里 并 等 待 获 得 锁 的 线程 将 会 被 解除 阻塞 ， 并 获得 互 斥 
fE. POSIX Threads 标 准 并 没有 定义 公平 性 的 概念 ， 因 此 获得 锁 的 顺序 不 能 保证 与 试图 获得 锁 
的 顺序 一 致 。 

代码 规范 6.7 POSIX Threads 中 用 来 获得 和 释放 互 斥 体 的 函数 











- 
| 。 -eMRE RO 
int pthread_mutex_lock( A/ 加 锁 互 斥 体 
pthread_mutex_t *mutex); 
int pthread_mutex_unlock( /4 解锁 互 斥 体 
pthread_mutex_t *mutex); 
int pthread_mutex_trylock( // 非 阻 塞 的 锁 
pthread mutex t *mutex); 
Sa. 
每 个 函数 都 使 用 了 一 个 互 斥 体 变 量 的 地 址 。 
返回 值 ; 
如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 
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注释 : 
pthread_mutex_trylockO 例 程 试图 获得 互 斥 体 ， 但 不 会 被 阻塞 。 如 果 互 斥 体 已 经 上 


锁 ， 则 该 例 程 将 返回 POSIX Threads 常 量 EBUSY 。 


互 斥 体 的 创建 和 销毁 ”在 之 前 的 例子 中 ， 我 们 知道 只 需要 一 个 互 斥 体 ， 因 此 能 静态 地 分 
配 。 在 一 些 不 能 预知 所 需 互 斥 体 数 的 情况 下 ， 可 以 动态 地 分 配 和 释放 互 斥 体 。 代 码 规 范 6.8 和 
6.9 就 显示 了 这 种 互 斥 体 如 何 动态 分 配 ， 并 使 用 默认 属性 初始 化 ， 最 后 销毁 。 

代码 规范 6.8 POSIX Threads 中 用 来 动态 创建 和 销毁 互 斥 体 的 函数 


互 斥 体 的 创建 和 销毁 


int pthread_mutex_init( . // 初始 化 互 斥 体 
pthread_mutex_t *mutex, 
pthread_mutexattr_t *attr); 

int pthread_mutex_destroy( // 销毁 互 斥 体 
Pthread_mutex 七 *mutex); 

int pthread_mutexattr_init ( // 初始 化 互 斥 体 属性 
pthread mutexattr t *attr); 

int pthread_mutexattr_destroy( ; // 销 般 互 斥 体 属性 
pthread mutexattr t *attr); 


参量 H 
"pthread_mnutex_initO) 例 程 需要 两 个 参量 : 指向 互 斥 体 的 一 个 指针 以 及 指向 互 斥 体 属 
性 的 一 个 指针 。 假 设 互 斥 体 属 性 已 经 初始 化 了 。 
e pthread_mutexattr_init() 和 pthread_mutexattr_destroy0) 例 程 都 将 指向 互 斥 体 属性 的 指 
针 作 为 参量 。 

注释 : 

如 果 pthread_mutex_init() 的 第 2 个 参量 为 NULL， 则 使 用 默认 属性 。 


代码 规范 6.9 在 POSIX Threads 接 口中 如 何 动态 分 配 互 斥 体 的 例子 
动态 分 配 互 斥 体 


pthread_mutex_t *lock; // 声明 指向 锁 的 一 个 指针 
lock=(pthread_mutex 七 *) malloc(sizeof(pthread_mutex_t)); 
pthread_mutex_init(lock, NULL); 

/* 

* 使 用 该 锁 的 代码 

*/ 



































pthread_mutex destroy(lock); 
free(lock); 









TRTE 显然 我 们 能 使 用 互 斥 体 来 实现 原子 性 。 得 到 互 斥 体 mn 的 线程 将 执行 临界 区 中 的 
代码 ， 直 到 它 释 放 互 斥 体 。 因 此 在 我 们 的 例子 中 ， 计 数 器 每 次 只 能 由 一 个 线程 更 新 。 原 子 性 
很 重要 ， 是 因为 它 能 保证 可 串 行 性 (serializability ) 。 如 果 执 行 能 确保 对 应 于 多 个 线程 的 某 种 
串 行 执行 ， 这 些 线程 的 并 发 执行 则 是 可 串 行 化 的 。 

正确 性 问题 ”解锁 一 个 尚未 上 锁 的 互 斥 体 是 错误 的 ， 同 理 ， 加 锁 一 个 已 经 被 其 他 线程 上 
锁 的 互 斥 体 也 是 错误 的 。 后 者 会 导致 死 锁 ， 即 线程 不 能 向 前 执行 ， 因 为 它 会 一 直 等 待 一 个 永 
远 都 不 会 发 生 的 事件 。 我 们 将 在 稍 后 的 几 个 小 节 中 讨论 死 锁 和 避免 死 锁 的 技术 。 
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6.1.3 同步 


互 斥 体 已 经 足够 为 临界 区 提供 原子 性 了 ， 但 在 许多 情况 中 ， 我 们 希望 一 个 线程 能 与 其 他 
线程 同步 它们 的 行为 。 例 如 ， 考 虑 经 典 的 约束 缓冲 区 问题 ， 即 一 个 或 多 个 线程 将 项 (item) 
放置 到 循环 缓冲 区 中 ， 而 其 他 一 些 线程 将 这 些 项 从 同一 个 缓冲 区 中 取出 。 如 图 6-1 所 示 ， 当 消 
费 者 跟 不 上 生产 者 的 速度 ， 导 致 缓冲 区 变 满 时 ， 我 们 希望 生产 者 能 停止 生成 数据 并 等 待 。 同 
样 ， 当 缓冲 区 为 空 时 ， 我 们 希望 消费 者 能 等 待 。 


图 6-1 使 用 生产 者 和 消费 者 的 约束 缓冲 区 。Put 游 标 和 Get 游 标 分 别 指示 了 生产 者 插入 下 一 项 的 位 置 和 消 
费 者 删除 下 一 项 的 位 置 。 当 缓冲 区 为 空 时 ， 消 费 者 必须 等 待 。 当 缓冲 区 为 满 时 ， 生 产 者 必须 等 待 
此 种 同步 可 由 条 件 变量 (condition variable) 支持 ， 它 们 具有 比 pthread_join(0) 更 加 通用 的 同步 
形式 。 参 见 代码 规范 6.10 和 6.11。 条 件 变量 允许 线程 等 待 ， 直 到 一 些 条 件 为 真 。 在 那 一 刻 ， 等 待 
线程 之 一 将 被 随机 选中 以 停止 等 待 。 我 们 可 以 将 这 些 条 件 变 量 想像 成 一 扇 门 (参见 图 6-2) 。 线 程 
等 在 门口 ， 直 到 某 个 条 件 为 真 。 其 他 线程 打开 此 门 表 示 该 条 件 已 为 真 ， 此 时 ， 等 待 者 之 一 将 被 
允许 进入 门 ， 继 续 执 行 。 如 果 一 个 线程 打开 门 而 没有 其 他 线程 在 等 待 ， 则 该 信号 将 不 起 作用 。 


图 6-2 条 件 变量 的 作用 犹如 门 。 线 程 通过 调用 pthread_cond_waitO 在 门 外 等 待 ， 通 过 调用 pthread_cond_ 
signal() 打 开门 。 当 门 打开 时 ,: 等 待 者 之 一 将 被 允许 通过 。 当 门 打开 而 没有 等 待 者 时 ， 该 信和 号 将 
不 起 作用 


代码 规范 6.10 pthread_cond_wait()。POSIX Threads 中 用 来 等 待 条 件 变 量 的 例 程 


pthread_cond_wait() 


int pthread_cond_wait( 
pthread_cond_t *cond, // 要 等 待 的 条 件 
pthread mutex t *mutex); // 用 作 保 护 的 互 斥 体 
int pthread_cond_timedwait ( 
pthread_cond t *cond, 
pthread_mutex_t *mutex, 
const struct timespec *abstime); // 超时 值 


参量 
* 要 等 待 的 条 件 变量 。 
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。 用 来 保护 对 条 件 变 量 访问 的 互 斥 体 。 互 斥 体 将 在 某 个 线程 阻塞 前 被 释放 ， 而 且 这 
两 个 操作 是 原子 性 的 。 稍 后 当 这 个 线程 不 阻塞 时 ， 互 斥 体 将 重新 被 这 个 线程 获得 。 
返回 值 : 

如 果 成 功 ， 则 为 0， 和 否则 为 <errno.h> 中 的 某 个 错误 码 。 
代码 规范 6.11 pthread_cond_signal0。POSIX Threads 中 用 来 发 条 件 变量 信号 的 例 程 


pthread_cond_signal() 






int pthread_cond_signal( 

pthread cond t *cond); // 发 信号 的 条 件 
int pthread_cond_broadcast( 

pthread_cond_t *cond); // 发 信号 的 条 件 


参量 ， 
要 发 信号 的 条 件 变量 。 
返回 值 ， 
如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 


注释 : 
“ 如果 没有 线程 等 待 cond， 则 这 些 例 程 不 起 任何 效果 。 特 别 是 ， 当 稍 后 要 调用 
pthread_cond_waitO 时 ， 不 存在 对 该 信号 的 记忆 。 
“Pthread_cond_signal(0) 例 程 可 能 唤醒 了 不 止 一 个 线程 ， 但 只 有 其 中 之 一 能 最 终 获得 
该 保护 性 互 斥 体 。 
* pthread_cond_broadcast() 例 程 唤醒 了 所 有 例 程 ， 但 只 有 一 个 已 唤醒 的 例 程 能 最 终 
获得 该 保护 性 互 斥 体 。 


可 以 使 用 两 个 条 件 变量 nonempty 和 nonfull 来 解决 约束 缓冲 区 问题 ， 如 图 6-3 所 示 。 当 然 由 
于 有 多 个 线程 要 更 新 这 些 条 件 变量 ， 我 们 需要 使 用 互 斥 体 来 保护 对 它们 的 访问 。 因 此 第 1 行 声 
明了 一 个 互 斥 体 ， 余 下 的 声明 定义 了 一 个 缓冲 区 和 它 的 两 个 游标 ，put 和 get， 当 它们 超过 缓冲 
区 边界 时 将 进行 环绕 ， 从 而 构成 一 个 循环 的 缓冲 区 。 正 如 我 们 在 图 6-1 中 所 见 到 的 ，put 游 标 指 
向 下 一 个 空位 ， 而 get 游 标 指向 下 一 个 要 移 除 的 元 素 。 当 这 两 个 游标 指向 同一 位 置 时 ， 缓 冲 区 
为 空 ， 当 这 两 个 游标 间 有 SIZE-1 的 距离 时 ， 缓 冲 区 为 满 。 实 际 上 所 请 满 的 缓冲 区 还 留 出 了 一 
个 空位 ， 这 是 因为 put 和 get 使 用 模 算 术 来 防止 溢出 ， 如 果 允 许 缓冲 区 完全 填 满 ， 我 们 将 无 法 确 
定 缓冲 区 到 底 为 满 还 是 为 空 。 

给 定 这 些 数据 结构 后 ， 生 产 者 线程 执行 insert() 例 程 ， 它 将 先 获 得 访问 条 件 变量 的 互 斥 体 。 
(图 中 略 去 了 生产 者 和 消费 者 线程 的 代码 ， 假 设 它 们 分 别 反复 地 调用 insert0 和 remove0 例 程 ) 
如 果 缓 冲 区 为 满 ， 生 产 者 将 等 待 nonfull 条 件 。 稍 后 当 缓冲 区 非 满 时 ， 它 将 被 唤醒 。 如 果 生 产 
者 线程 阻塞 ， 它 所 持 有 的 互 斥 体 必须 被 释放 以 避免 死 锁 。 因 为 释放 互 斥 体 和 阻塞 等 待 线程 这 
两 个 事件 必须 原子 地 出 现 ， 因 此 它们 必须 通过 pthread_cond_wait() 执 行 ， 所 以 互 斥 体 将 作为 一 
个 参数 传递 给 pthread_cond_wait()。 当 生产 者 从 第 14 行 的 等 待 中 返回 时 ， 它 将 继续 执行 ， 而 保 
护 性 互 斥 体 将 重新 被 代表 生产 者 的 系统 获得 。 

稍 后 我 们 将 解释 为 什么 需要 第 11 行 的 while 循 环 ， 但 现在 先 假设 当 生产 者 执行 第 16 行 时 ， 
缓冲 区 是 非 满 的 ， 因 此 加 入 一 个 新 项 并 将 put 游 标 推 前 一 格 都 是 安全 的 。 此 时 ， 缓 冲 区 不 可 能 
为 空 ， 因 为 生产 者 刚刚 插入 了 一 个 元 素 ， 因 此 生产 者 发 信号 表示 缓冲 区 为 非 空 ， 并 唤醒 一 个 
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或 多 个 之 前 等 待 空 缓冲 区 条 件 的 消费 者 。 如 果 没 有 等 待 的 消费 者 ， 则 该 信号 将 丢失 。 最 后 ， 
消费 者 释放 互 斥 体 并 退出 例 程 。 同 样 ， 消 费 者 线程 以 一 个 非常 类 似 的 方式 执行 remove0) 例 程 。 














1 pthread mutex 七 lock=PTHREAD MUTEX INITIALIZER; 
2 pthread cond_t nonempty=PTHREAD COND _INITIALIZER; 
3 pthread cond t nonfull=PTHREAD_COND_INITIALIZER; 
4 Item buffer[SIZE]; 
5 int put=0; // 指向 下 一 个 插入 项 的 缓冲 区 索引 
6 int get=0; /4 指向 下 一 个 移 除 项 的 缓冲 区 索引 
7 
8 void insert(Item x) // 生产 者 线程 
9 í 
10 pthread_mutex_lock(&lock); 
11 while ((put+1)% SIZE==get // 当 缓 冲 区 为 满 时 
12 
13 { 
14 pthread_cond_wait(&nonfull, &lock); 
15 } 
16 buffer[put]=x; 
17 put=(put+1)%SIZE; 
18 pthread_cond_signal( &nonempty); 
19 pthread_mutex_unlock( &lock); 
20 } 
21 
22 Item remove() // 消费 者 线程 
23 { 
24 Item x; 
25 pthread_mutex_lock(&lock) ; 
26 while(put==get) // 当 缓 冲 区 为 空 时 
27 { 
28 pthread_cond_wait(&nonempty, &lock); 
29 } 
30 x=buffer[get]; 
31 get=(get+1)%SIZE; 
32 pthread _cond_signal(sanonfull) ; 
33 pthread_mutex_unlock( &lock); 
34 return x; 





35 } 


图 6-3 使 用 条 件 变量 nonempty 和 nonfull 的 约束 缓冲 区 示例 


保护 条 件 变量 ”现在 让 我 们 回 到 约束 缓冲 器 程序 第 11 行 的 while 循 环 。 如 果 系 统 中 有 多 个 
生产 者 线程 ， 则 这 个 循环 将 是 关键 所 在 ， 因 为 pthread_cond_signal() 能 唤醒 多 个 等 待 线程 | 
但 在 任意 时 刻 只 有 一 个 能 获得 保护 性 互 斥 体 。 参 见 代码 规范 6.10 和 6.11。 因 此 在 发 信号 时 ， 组 
冲 区 是 非 满 的 ， 但 当 某 个 线程 获得 了 互 斥 体 后 ， 缓 冲 区 可 能 重新 变 满 。 在 这 种 情况 下 ， 线 程 
应 再 次 调用 pthread_cond_waitO。 当 生产 者 线程 执行 第 16 行 代码 时 ， 缓 冲 区 必定 为 非 满 ， 因 此 
插入 一 个 新 项 和 将 put 游 标 推 前 一 格 都 将 是 安全 的 。 

在 第 18 行 和 第 32 行 ， 我 们 看 到 对 pthread_cond_signal0 的 调用 也 由 锁 保护 。 图 6-4 中 显示 的 
例子 解释 了 为 什么 这 种 保护 是 必要 的 。 等 待 线程 (在 这 里 是 消费 者 ) ， 在 获得 保护 性 互 斥 体 的 
同时 ， 发 现 缓 冲 区 为 空 , 因此 它 执行 了 pthread_cond_wait()。 如 果 发 信号 线程 (此 处 是 生产 者 )， 
没有 使 用 互 斥 体 保护 对 pthread_cond_signal0) 的 调用 ， 它 可 能 会 在 等 待 线程 发 现 缓冲 区 为 空 后 ， 
马上 插入 一 项 到 缓冲 区 中 。 如 果 在 等 待 线程 执行 pthread_cond_waitO 调 用 之 前 ， 生 产 者 就 发 送 
了 缓冲 区 非 空 的 信号 ， 则 该 信号 将 被 忽略 ， 导 致 消费 者 线程 无 法 意识 到 缓冲 区 实际 上 已 非 空 





O 这些 语义 会 依赖 于 实现 细节 。 在 某 些 情况 中 ， 确保 只 有 一 个 等 待 者 会 被 信号 解除 阻塞 所 花费 的 代价 是 昂贵 的 。 
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一 
在 这 种 情况 下 ， 生 产 者 只 插入 了 一 个 项 ， 而 等 待 线程 将 会 不 必要 地 永远 等 待 下 去 。 


等 待 线程 
while(put==get ) 


insert (item) ; 
时 间 pthread_cond_signal(&nonempty) ; 


// 信号 丢失 


pthread_cond_wait(&nonempty, lock); 
// 将 会 永远 等 待 





图 6-4 举例 解释 为 什么 信号 线程 需要 由 互 斥 体 保护 
显然 这 个 问题 涉及 了 缓冲 区 操作 的 竞 态 条 件 。 一 种 显而易见 的 解决 方案 是 使 用 相同 的 互 
斥 体 保护 对 pthread_cond_waitO 和 pthread_cond_signal0) 的 调用 ， 就 如 同 之 前 我 们 在 约束 缓冲 
区 解决 方案 所 使 用 的 代码 中 展示 的 一 样 。 由 于 insert() 和 remove() 这 两 个 例 程 都 由 同一 互 斥 体 
保护 ， 我 们 会 有 与 非 空 缓 冲 区 相关 的 三 个 临界 区 ， 如 图 6-5 中 所 示 。 当 等 待 进程 认为 缓冲 区 为 
空 时 ， 绝 不 会 发 生 信号 丢失 的 情况 。 


insert( ) 


insert (item); Vee 四 F 
pthread_cond_signal(&nonempty); ) 临界 区 A 


remove( ) 








Lock (mutex) x 
while(put==get} 临界 区 B 
pthread cond 8 ignal(&nonempty) 


信号 线程 * 


案例 1:A,B,C 











insert (item); 
pthread_cond_signal (&nonempty); 
lock (mitex) 


时 间 | while 














insert (item) ; 
pthread_cond_signal( &nonempty ) ; 






remove (item); 





案例 3:B,C,A 
时 间 | ， 





Wait(&nonemot y) 


remove( item); 








insert(item) ; 
pthread_cond_ signal (&nonempty ) ; 








图 6-5 信号 代码 合适 的 上 锁 可 防止 竞 态 条 件 。 通 过 使 用 一 个 互 斥 体 保护 三 个 与 非 空 缓冲 区 相关 的 临界 区 ， 
可 以 确保 A、B 和 C 均 会 原子 地 执行 ， 从 而 避免 了 图 6-4 中 的 问题 ， 由 于 B 必 须 先 于 C， 因 此 只 有 三 
种 方法 能 使 A 与 B 和 C 交 又。 绝 不 会 出 现 线程 执行 remove() 例 程 认为 缓冲 区 为 空 时 ， insert(O) 例 程 的 
信号 丢失 的 情况 
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我 们 认为 对 pthread_cond_signal() 的 调用 一 定 要 由 保护 等 待 代码 的 同一 互 斥 体 保护 。 但 是 
广 意 到 竞 态 条 件 不 是 出 自 条 件 变量 的 信号 ， 而 是 源 自 对 共享 缓冲 区 的 访问 。 因 此 ， 我 们 可 以 
改 为 简单 地 保护 任何 操作 共享 缓冲 区 的 代码 ， 这 意味 着 insert0 代 码 ， 在 插入 一 项 到 缓冲 区 之 
后 ， 但 在 调用 pthread_cond_signal() 之 前 ， 能 立即 释放 互 斥 体 。 这 段 新 的 代码 不 仅 合法 ， 而 且 
产生 了 更 好 的 性 能 ， 因 为 它 减 小 了 临界 区 的 大 小 ， 从 而 允许 了 更 大 的 并 发 性 。 

创建 和 销毁 条 件 变量 ”条 件 变量 与 线程 、 互 斥 体 一 样 ， 能 通过 静态 或 动态 的 方式 创建 和 
销毁 。 在 约束 缓冲 区 的 例子 中 ， 静 态 条 件 变 量 能 通过 初始 化 为 PTHREAD_COND_ 
INIIIALIZER 而 获得 默认 属性 。 条 件 变量 也 能 动态 分 配 ， 如 代码 规范 6.12 中 所 示 。 

代码 规范 6.12 POSIX Threads 中 用 来 动态 创建 和 销毁 条 件 变量 的 例 程 


动态 分 配 条 件 变 量 









int pthread_cond_init( 









pthread_cond_t *cond, // 条 件 变量 
const pthread_condattr_t *attr); // 条 件 属 性 
int pthread_cond_destroy( 
Bthread cond t *cond); // 要 销毁 的 条 件 
Sh. 
如 果 attr 是 NULL， 则 使 用 默认 属性 。 
返回 值 : 






如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 


等 待 多 个 条 件 变 量 ”在 某 些 例子 中 ， 一 段 代 码 在 多 个 条 件 未 被 同时 满足 之 前 不 能 执行 。 
在 这 种 情况 下 ， 等 待 线程 必须 同时 测试 所 有 的 条 件 ， 如 下 所 示 : 


1 EatJuicyFruit() 





2 { 

3 pthread_mutex_lock(&lock) ; 

4 while(apples==0| | oranges==0) 

5 { 

6 pthread_cond_wait(&more_apples, &lock); 
7 pthread_cond_wait ( &more oranges, &lock); 
8 


} 
9 /* 临 界 区 : EERE T * / 
10 pthread_mutex_unlock(&lock); 


相反 ， 以 下 这 段 代 码 依次 等 待 每 个 条 件 ， 最 终 会 因为 没有 确保 两 个 条 件 同 时 为 真 而 出 错 ， 
即 在 返回 第 一 个 pthread_cond_wait() 调 用 之 后 ， 但 在 返回 第 二 个 pthread_cond_wait0 调 用 之 前 ， 
其 他 线程 有 可 能 移 走 了 全 果 ， 从 而 导致 第 一 个 条 件 为 假 。 


l EatJuicyFruit() 注意 : 这 段 代码 是 有 错误 的 ! 
2 1 
3 pthread mutex lock(glock); 
4 while(apples==0) 
5 
6 pthread cond wait(é&more apples, &lock); 
7 } 
8 while(oranges==0) 
9 { l 
10 pthread_cond_wait(&more_oranges, &lock); 
11 } 
12 


13 /* 临 界 区 : MEERLE * / 
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14 pthread_mutex_unlock(&lock); 
15 } 


线程 指定 数据 ”线程 擅长 维护 私有 数据 而 非 共 享 数据 。 例 如 我 们 在 之 前 的 一 些 例子 中 看 
到 ， 将 一 个 线程 的 索引 传递 给 起 始 例 程 ， 就 可 以 使 线程 知道 该 在 数据 的 哪个 部 分 上 工作 。 索 
3 引 可 用 来 为 每 个 线程 分 配 一 个 数组 中 不 同 的 元 素 ， 如 下 所 示 : 

1 。.。 

3 for(i=0; i<t; i++) 

4 

5 err=pthread create(gtid{i], NULL, start function, i); 
6 } 

7 

8 void* start_function(void*index) 

9 í 


10 private_count[index]=0; 
11 


但 这 样 做 有 一 个 问题 ， 如 果 这 段 代码 在 某 个 函数 foo0 中 访问 索引 ， 而 这 个 函数 又 埋藏 于 其 
他 代码 中 。 在 此 种 情况 下 ，foo0 应 如 何 获得 索引 run. 

值 ? 一 个 解决 方案 是 将 索引 作为 参数 传递 到 每 个 

调用 foo0 的 过 程 中 ， 包 括 通过 其 他 过 程 间接 调用 
ioo0 的 过 程 。 这 种 解决 方案 相当 繁琐 ， 特 别 对 于 
那些 需要 参数 但 又 不 直接 使 用 的 过 程 而 言 。 

与 此 相反 ， 实 际 上 我 们 真正 需要 的 是 在 全 局 
范围 内 对 所 有 代码 可 用 、 但 对 每 个 线程 又 有 所 不 
同 的 值 。POSIX Threads 以 线程 指定 数据 (thread- 
specific data) 的 形式 支持 了 这 种 概念 。 它 使 用 了 SP REE 
一 组 刍 ， 既 能 在 一 个 进程 中 被 所 有 线程 共享 ， 又 全 恒定 数据 通过 键 访 问 ， 它 在 不 同 线 
能 为 每 个 线程 映射 不 同 的 指针 值 。( 参 见 图 6-6)。 全 会员 射 到 不 同 的 存储 器 地 址 

作为 一 个 特殊 例子 ，POSIX Threads 例 程 的 错误 码 值 以 线程 指定 数据 方式 返回 ， 但 这 些 数 
据 并 不 使 用 代码 规范 6.13 至 6.17 中 定义 的 接口 。 相 反 ， 每 个 线程 都 有 自己 的 ermo 值 。 

代码 规范 6.13 ”这 个 例子 说 明了 线程 指定 数据 是 如 何 使 用 的 。-- 旦 使 用 这 段 代码 初始 化 ， 
任意 过 程 均 能 访问 my_index 的 值 


线程 指定 数据 

pthread_key t *my_index; 

#tdefine index(pthread_getspecific(my_index)) 
main() 


{ 





图 6-6 POSIX Threads 中 线程 指定 数据 的 举例 。 


pthread_key_create(&my_index, 0); 


} 
void start_routine(int id) 


{ 


pthread_setspecific(my_index, id); 


要 避免 在 一 个 紧凑 的 内 循环 中 访问 索引 ， 因 为 每 次 访问 都 需要 -一 个 过 程 调 用 。 
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代码 规范 6.14 pthread_key_create(), POSIX Threads 中 用 来 为 线程 指定 数据 创建 键 的 例 程 


pthread key create 

int pthread key createl( 
pthread_key_t*key, // 要 创建 的 键 
void(*destructor) (void*)); // 析 构 函数 


参量 : 
。 指 向 要 创建 的 键 的 指针 。 


“ 析 构 函数 ，NULL 表 示 无 析 构 函数 。 
返回 值 : 
如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 
注释 : . 
要 避免 在 一 个 紧凑 的 内 循环 中 访问 索引 ， 因 为 每 次 访问 都 需要 一 个 过 程 调用 。 





代码 规范 6.15 pthread_key_delete(), POSIX Threads 中 用 来 删除 键 的 例 程 


pthread key delete 


int pthread key delete( 
pthread key t*key); // 要 删除 的 键 


参量 : 

指向 要 删除 的 键 的 指针 。 
返回 值 ， 

如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 
注释 : 
不 会 调用 析 构 函数 。 


代码 规范 6.16 pthread_setspecific()。POSIX Threads 中 用 来 设置 线程 指定 数据 的 值 的 例 程 


pthread setspecific 





int pthread_setspecific( 
pthread key t*key, // 要 设置 的 键 
void *value); // 要 设置 的 值 


参量 H 
。 指 向 要 设置 的 键 的 指针 。 
。 要 设置 的 值 。 
返回 值 : 
如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 
注释 ， 
在 键 创 建 之 前 或 删除 之 后 调用 pthread_setspecific(O) 都 会 出 错 。 


代码 规范 6.17 pthread_getspecific(), POSIX Threads 中 用 来 获得 某 个 线程 指定 数据 的 值 
的 例 程 


pthread_getspecific 





int pthread_getspecific( 
pthread key t*key); // 映射 到 值 的 键 





POF RRR RH 117 
ROK 线 存 在 序 谈 六 7117 


参量 : 
要 获得 值 的 键 。 
返回 值 : 


调用 线程 所 对 应 的 键 的 值 。 

注释 : 
如 果 线 程 在 键 创建 之 前 或 删除 之 后 调用 pthread_getspecific()， 则 该 例 程 的 行为 就 是 
未 定义 的 。 





6.1.4 安全 性 问题 


许多 类 型 的 错误 源 自 不 正确 的 使 用 锁 和 条 件 变 量 。 例 如 ， 我 们 已 经 提 及 的 双重 加 锁 问 题 ， 
即 线程 试图 获得 一 个 它 已 经 拥有 的 锁 。 又 如 ， 如 果 线 程 访问 没有 上 锁 的 共享 变量 ， 或 线程 获 
得 锁 但 没有 释放 它 ， 也 会 发 生 问题 。 一 个 特别 重要 的 问题 是 如 何 吕 免 死 锁 。 本 小 节 将 讨论 各 
种 不 同 的 避免 死 锁 及 其他 潜在 隐 错 的 方法 。 ane ese 

死 锁 死 锁 有 四 个 必要 条 件 ， 

1. 互 尺 ， 一 个 资源 最 多 只 能 分 配给 一 个 线程 。 

2. 持 有 和 等 待 ， 两 个 线程 都 持 有 一些 资源 ， 并 请 






求 其 他 资源 。 请 求 é z y Bae 
3， 非 抢占 式 : 分 配给 某 个 线程 的 资源 只 能 由 该 线 资源 分 配 图 
程 自己 释放 。 图 6-7 死 锁 举例 。 线 程 T1 和 T2 分 别 持 有 
4. 循环 等 待 : 每 个 线程 都 在 等 待 已 经 分 配给 其 他 线 锁 L1 和 L2， 两 个 线程 均 试图 获得 
程 的 资源 ， 且 这 些 线程 之 间 存在 着 回路 。( 参 见 图 6-7)， 另 一 个 锁 ， 而 这 是 不 可 能 获准 的 


当然 ， 对 于 基于 线程 的 程序 设计 而 言 ， 互 斥 体 是 一 种 能 导致 死 锁 的 资源 。 有 两 种 处 理 死 
锁 的 常用 方法 : (1) 防止 死 锁 ， (2) 允许 死 锁 发 生 ， 但 一 旦 侦 测 到 它们 的 存在 ， 便 破坏 死 锁 ， 
我 们 主要 关注 于 死 锁 的 避免 ， 因 为 POSIX Threads 没 有 提供 破坏 死 锁 的 机 制 。 

锁 的 层次 体系 一 个 防止 死 锁 的 简单 方法 是 在 资源 分 配 图 中 防止 回路 的 出 现 。 我 们 对 锁 
进行 排序 ， 并 要 求 所 有 线程 必须 以 相同 的 顺序 获得 锁 ， 以 此 防止 出 现 回路 。 这 种 方法 称 为 锁 
的 层次 体系 (lock hierarchy), 

锁 的 层次 体系 要 求 程序 员 预 先知 道 线程 需要 获得 哪个 锁 。 假 设 在 获得 锁 L1，L3 和 17 之 后 ， 
线程 发 现 它 还 需要 获得 L2， 而 这 会 违反 锁 的 层次 体系 。 一 种 解决 方案 是 线程 先 释放 锁 L3 和 L7， 
然后 再 依次 获得 锁 L2，L3 和 L7。 当 然 这 种 对 锁 层 次 体系 的 严格 一 致 性 会 导致 高 兄 的 成 本 ， 另 
一 种 更 好 的 解决 方案 是 使 用 pthread_mutex_trylock0) 尝 试 获得 锁 L2 (参见 代码 规范 6.7) ， 其 结 
果 或 是 获得 了 锁 ， 或 是 马上 返回 而 不 被 阻塞 。 如 果 线程 不 能 获得 锁 L2， 则 它 必须 使 用 第 一 种 
方法 。 

监视 器 使 用 锁 和 条 件 变量 都 容易 产生 错误 ， 因 为 它们 都 依赖 于 程序 员 自身 的 素质 ， 另 
一 种 解决 方案 是 提供 语言 支持 ， 这 将 允许 编译 器 强制 实现 互 尺 和 正确 同步 。 监 视 器 monitor) 
就 是 这 样 的 一 种 语言 结构 ， 如 图 6-8 所 示 。 监 视 器 封装 了 代码 和 数据 ， 并 确保 了 互 斥 。 尤 其 是 ， 
监视 器 有 一 组 良 定义 的 入 口 点 ， 其 数据 只 能 由 位 于 监视 器 内 部 的 代码 访问 ， 并 且 任 意 时 刻 都 
只 有 一 个 线程 能 执行 监视 器 的 代码 。 我 们 可 以 用 面向 对 象 的 语言 实现 监视 器 ， 比 如 C++， 图 
6-9 显 示 了 一 个 与 图 6-3 略 有 不 同 的 解决 方案 。 
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监视 器 
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Entry 1() Entry 2() 等 待 线程 
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图 6-8 监视 器 提供 了 一 种 同步 抽象 , 任意 时 刻 都 只 有 一 个 线程 能 访问 监视 器 的 数据 。 其 余 线程 均 被 阻塞 ， 
或 等 待 着 进入 监视 器 ， 或 等 待 来 自 监视 器 内 的 事件 





































1 class BoundedBuffer 
2 { // 实现 监视 器 
3 private: 
4 pthread_mutex_t lock; // 同步 变量 
5 pthread_cond_t nonempty, nonfull; 
6 Item *buffer; // 共享 数据 
7 int in, out; // 游标 
8 CheckInvariant(); 
9 
10 public: 
11 BoundedBuffer(int size); // 构造 函数 
12 ~BoundedBuffer(); // 析 构 函数 
13 void put(Item x); 
14 Item get(); 
15 } 
16 


17 // 构造 函数 和 析 构 函数 


18 BoundedBuffer::Bounded(int size) 











19 { 
20 // 初始 化 同步 变量 

21 pthread mutex init(&lock, NULL); 

22 pthread cond init(&nonempty, NULL); 
23 pthread cond init(&nonfull, NULL); 
24 

25 // 初始 化 缓冲 区 

26 buffer=new Item[size]}; 

27 in=out=0; 

28 } 

29 

30 BoundedBuffer: :~BoundedBuffer( ) 

31 { 

32 pthread_mutex_destroy(&lock); 

33 pthread_cond_destroy(&nonempty); 

34 pthread_cond_destroy(&nonfull); 

35 delete buffer; 

36 } 

37 

38 // 成 员 函 数 

39 BoundedBuffer::Put(Item x) 

40 { 

41 pthread_mutex_lock(&lock); 

42 while(in-out==size) // 当 缓冲 区 为 满 时 
43 { 





pthread_cond_wait(s&nonfull, &lock); 


图 6-9 用 C++ 实现 的 监视 器 
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} 
buffer[intsize]=x; 

in++; 

pthread cond signal(&nonempty); 
pthread mutex unlock(&lock); 


Item BoundedBuffer: :Get() 


{ 
pthread_mutex_lock(&lock); 


while(in==out) 


// 当 缓 冲 区 为 空 时 


pthread_cond_wait(&nonempty, &lock); 
} i 
x=buffer[outtsize]; 
outt+t+; 
pthread_cond_signal(énonfull); 
pthread_mutex_unlock(&lock); 
return x; 





图 6-9 (2%) 


监视 器 不 仅 能 强制 互 斥 ， 而 且 能 实现 抽象 ， 这 就 简化 了 我 们 推断 并 发 性 的 方法 。 尤 其 是 ， 
数量 有 限 的 人 口 点 方便 了 对 不 变 式 的 保留 。 不 变 式 (invariant) 是 指 在 进入 时 假设 为 真 ， 在 退 
出 时 必须 恢复 的 属性 。 如 图 6-10 所 示 ， 当 监视 器 的 锁 被 持 有 时 ， 这 些 不 变 式 可 能 会 被 破坏 ， 


但 它们 必须 在 锁 释放 前 恢复 。 
人 监视 器 


| Entry X) 












Entry 1() 


调用 


返回 























C) 不 变 式 为 真 


一 ~ 转换 
不 变 式 可 能 
被 破坏 







图 6-10 监视 器 和 不 变 式 。 实 心 圈 表 示 不 变 式 可 能 被 破坏 的 程序 状态 。 空心 圈 表示 不 变 式 假 设 为 真 的 程 
序 状 态 
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例如 ， 在 我 们 的 约束 缓冲 区 的 例子 中 ， 我 们 有 两 个 不 变 式 ， 

1. In 和 Out 游标 之 间 的 距离 必须 小 于 缓冲 区 的 大 小 。 

2. In 游标 不 能 在 Out 游标 的 左边 。( 图 6-1 中 ，Put 箭 头 不 能 在 Get 箭 头 的 左边 。) 

一 且 我 们 确定 了 不 变 式 ， 我 们 就 能 编写 一 个 例 程 用 以 检查 所 有 的 不 变 式 ， 而 且 每 次 进入 
和 退出 监视 器 时 都 会 调用 该 例 程 。 这 种 不 变 式 可 用 作 重 要 的 调试 工具 。 例 如 在 图 6-11 中 ， 程 
序 检查 了 这 些 不 变 式 ， 以 此 帮助 调试 该 监视 器 的 实现 。 注 意 在 第 20 行 和 第 22 行 都 插入 了 检查 。 
需要 第 20 行 的 检查 是 因为 第 21 行 调用 的 pthread_cond_wait( 可 能 隐 式 地 释放 了 锁 ， 因 此 这 是 一 
个 法 在 的 监视 器 退出 ， 而 需要 第 22 行 的 检查 是 因为 从 pthread_cond_wait() 的 返回 隐 式 地 重新 获 
得 了 该 锁 ， 因 此 这 是 一 个 监视 器 进入 。 





1 BoundedBuffer::CcheckInvariant() 
2 { 
3 if(in 一 out>size) // 检查 不 变 式 (1) 
4 { 
5 return(0); 
6 } 
7 if (in<out ) // 检查 不 变 式 (2) 
8 
9 return(0); 
10 } 
11 return(1); 
12 
13 
14 Item BoundedBuf fer: :Get() 
15 { 
16 pthread_mutex_lock(&lock); 
17 assert (CheckIinvariant()); // 在 每 个 人 口 点 检查 
18 while(in==out) // eB he eset 
19 { 
20 assert (CheckInvariant()); // 在 每 个 退出 点 检查 
21 pthread cond _wait(&nonempty, &lock); 
22 assert (CheckInvariant()); 
23 } 
24 x=buffer[out%size]; 
25 outt++; 
26 pthread_cond_signal(&nonfull); 
27 assert (CheckInvariant()); 
28 pthread_mutex_unlock(&lock); 
29 return x; 





图 6-11 用 来 检查 图 6-9 约 束 缓冲 区 程序 中 不 变 式 的 程序 


再 入 监视 器 ”虽然 监视 器 有 助 于 强制 实现 上 锁 的 规定 ， 但 它 无 法 解决 所 有 的 并 发 问题 。 例 
如 ， 如 果 监 视 器 内 的 过 程 试图 通过 调用 进入 过 程 重新 进入 监视 器 ， 就 会 发 生死 锁 。 为 了 避免 这 
种 问题 ， 过 程 首先 必须 恢复 所 有 的 不 变 式 ， 并 释放 监视 器 的 锁 ， 然 后 再 尝试 重新 进入 监视 器 。 
当然 ， 这 种 结构 就 意味 着 原子 性 的 走失 。 如 果 监 视 器 内 的 过 程 试图 通过 调用 其 他 外 部 过 程 间 接 
地 重新 进入 监视 器 ， 同 样 的 问题 也 会 发 生 。 因 此 监视 器 过 程 调用 外 部 例 程 时 必须 慎之 又 愤 。 

那些 需要 太 长 时 间或 等 待 外 部 事件 发 生 的 监视 器 函数 会 妨碍 到 其 他 线程 进入 监视 器 。 为 
了 避免 这 种 问题 ， 需 要 长 时 间 运 行 的 函数 通常 被 重 写 为 等 待 某 个 条 件 ， 以 此 释放 锁 ， 增 加 并 
行 性 。 与 重新 进入 的 例 程 相同 ， 此 类 函数 需要 在 释放 锁 之 前 恢复 不 变 式 。 


6.1.5 性 能 问题 
在 第 3 章 中 ， 我 们 看 到 线程 间 的 相关 性 会 限制 并 行 性 。 由 于 锁 会 在 线程 间 动 态 地 强加 相关 
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性 ， 因 此 锁 的 粒度 大 小 对 并 行 性 有 很 大 影响 。 其 中 一 个 极端 是 ， 最 粗 粒度 的 锁 方案 是 为 所 有 
共享 变量 使 用 单个 锁 。 这 种 方案 很 简单 ， 但 当 存在 共享 时 ， 将 严重 制约 并 发 性 。 而 另 一 个 极 
端 是 ， 我 们 为 数据 结构 中 每 个 细 粒 度 的 子 结构 都 配备 锁 。 例 如 ， 在 统计 3 的 个 数 例子 中 ， 我 们 
可 以 用 不 同 的 锁 来 保护 聚合 树 中 的 每 个 结 点 。 这 种 方案 虽然 增加 了 并 发 性 ， 但 同时 也 增加 了 
获得 和 释放 锁 的 时 延 ， 甚 至 在 没有 竞争 数据 结构 时 亦 会 如 此 。 而 且 由 于 每 个 线程 必须 要 获得 
多 个 锁 才 能 在 多 个 数据 结构 上 进行 操作 ， 出 现 死 锁 的 几率 就 会 增 大 。 作 为 折 中 ， 我 们 可 以 为 
每 棵 聚合 树 配备 一 个 锁 。 一 般 而 言 ， 需 要 在 并 行 性 与 开销 之 间 折 中 粒度 的 粗细 。 
读者 和 写 者 举例 ， 粒度 问题 如 同 锁 有 不 同 粒度 ， 使 用 条 件 变量 也 有 不 同 粒度 。 考 虑 有 一 
个 资源 能 被 多 个 读者 所 共享 ， 或 只 被 一 个 写 者 排他 地 访问 (参见 图 6-12)。 为 了 协调 对 这 种 












1 int readers; ‘/ 负 值 => 活 跃 的 写 者 
2 pthread_mutex_t lock; 
3. pthread_cond_t rBusy, wBusy; // 为 读者 和 写 者 分 别 使 用 独立 的 条 件 变量 
4 
5 AcquireExclusive() 
6 { 
7 pthread_mutex_lock(&lock); 
8 while(readers !=0) 
9 
10 pthread_cond_wait(&wBusy, &lock); 
11 } 
12 readers=-1; . 
13 pthread mutex unlock(&lock); 





14 } 





AcquireShared() 
17 1{ 






pthread mutex lock(&lock); 






while(readers<0) 









21 { 

22 pthread_cond_wait(&rBusy, &lock); 
23 } 

24 readers ++; 

25 pthread mutex unlock(&lock); 






26 } 





ReleaseExclusive() 








29 4 

30 pthread_mutex_lock(&lock); 

31 readers=0; 

32 pthread_cond_broadcast (&rBusy); // 只 唤醒 读者 
33 pthread mutex unlock(&lock); 


34 } 







ReleaseShared ( 







int doSignal; 





pthread_mutex_lock(&lock); 







41 readers--; 

42 doSignal=(readers==0) 

43 pthread_mutex_unlock(&lock); 

44 if(doSignal) // 信号 的 执行 在 临界 区 之 外 
{ 








// 唤醒 一 个 写 者 


pthread cond signal (&wBusy); 










47 } 
} 


图 6-12 支持 多 读者 单 写 者 的 例 程 
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资源 的 访问 ， 我 们 实现 了 读者 和 写 者 都 能 调用 的 四 个 例 程 ~AcquireExclusive()， 
RelaeaseExculsive()，AcquireShared()，ReleaseShared()。 每 个 例 程 均 由 一 个 互 斥 体 保护 ， 总 
共 使 用 了 两 个 条 件 变 量 。 为 了 在 排他 模式 中 获得 资源 ， 线程 将 等 待 wBusy 条 件 变量 ， 以 此 确 
保 设 有 读者 还 能 访问 该 资源 。 当 最 后 一 个 读者 以 共享 模式 完成 访问 资源 时 ， 它 就 发 送信 号 给 
wBusy 条 件 变量 以 允许 一 个 写 者 进行 操作 。 类 似 地 ， 当 一 个 写 者 以 排他 模式 完成 访问 资源 时 ， 
它 就 发 送信 号 给 rBusy 条 件 变量 以 允许 任意 数量 的 读者 访问 该 资源 。 在 访问 共享 资源 之 前 ， 这 
些 线程 一 直 在 等 待 rBusy 条 件 变量 。 

关于 这 段 代 码 有 两 点 值得 注意 : 

第 一 ， 这 段 代码 使 用 了 双 条 件 变量 ， 这 很 自然 地 让 人 疑心 是 否 单条 件 变 量 就 足够 。 实 际 
上 ， 单 条 件 变 量 是 可 行 的 ， 如 图 6-13 所 示 ， 而 且 代码 在 功能 上 也 是 正确 的 。 但 不 幸 的 是 ， 使 







1 int readers; // 负 值 => 活 跃 的 写 者 

2 pthread mutex t lock; 

3 pthread cond t busy; // 使 用 一 个 条 件 变 量 来 表示 数据 是 否 位 
4 

5 AcquireExclusive() 

6 { 

7 pthread_mutex_lock(&lock); // SRR ES EEE a BE 
8 while(readers!=0) 

9 { 

10 pthread_cond_wait(&busy, &lock); 

11 } 

12 readers=-1; 

13 pthread_mutex_unlock(&lock); 


14 } 





AcquireShared() 
{ 










18 pthread_mutex_lock(&lock); 

19 while(readers<0) 

20 { 

21 pthread_cond_wait(&busy, &lock); 
22 } 

23 readers++; 

24 pthread_mutex_unlock(&lock); 





25 } 





ReleaseExclusive() 


{ 








29 pthread_mutex_lock(&lock); 

30 readers=0; 

31 pthread_cond_broadcast (&busy); 
32 pthread_mutex_unlock(&lock); 






33 } 





ReleaseShared( 
{ 








37 pthread_mutex_lock(&lock); 
38 readers--; 

39 if (readers==0) 

40 { 






pthread_cond_signal(&busy); 






pthread_mutex_unlock(&lock); 


图 6-13 基于 单条 件 变量 ， 但 存在 伪 唤 醒 问题 的 支持 多 读者 单 写 者 的 例 程 
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用 单条 件 变 量 后， 代码 会 出 现 伪 唤醒 (spurious wakeup) 的 情况 ， 即 写 者 会 在 被 唤醒 之 后 马 
上 重新 进入 睡眠 。 尤 其 是 ， 当 调用 ReleaseExclusive() 时 ， 读 者 和 写 者 都 被 发 送 了 信忠， 因此 
只 要 有 一 个 读者 仍 在 等 待 条 件 变量 ， 写 者 就 会 遭受 到 伪 唤 本 的 困扰 。 而 我 们 之 前 的 解决 方案 
用 双 条 件 变量 来 避免 伪 唤 醒 ， 即 只 要 对 两 种 类 型 的 访问 都 有 需求 ， 它 就 将 强制 轮换 排他 访问 
和 共享 访问 。 

第 二 ，ReleaseShared() 例 程 在 临界 区 外 发 送信 和 号 给 wBusy 条 件 变 量 ， 能 避免 锁 的 伪 冲 突 
(spurious lock conflict) 问题 ， 即 一 个 线程 被 信号 唤醒 ， 执 行 了 一 些 指 令 ， 然 而 当 它 试图 获得 
锁 时 马上 就 会 被 阻塞 。 另 一 种 情况 ， 若 ReleaseShared0) 例 程 在 临界 区 内 发 送信 号， 如 下 段 代 码 
所 示 ， 则 任何 醒 着 的 写 者 都 会 因 试图 获得 锁 几 平 立即 阻塞 。 


35 ReleaseShared( 


36 { 

37 pthread_mutex_lock(&lock); 

38 readers--; 

39 if(readers==0) 

40 { 

41 pthread_cond_signal(&wBusy); // 在 临界 区 内 唤醒 写 者 

42 } // the critical section 
43 pthread_mutex_unlock(&lock); 

44 } 


将 信号 发 送 移 到 临界 区 之 外 的 决定 是 一 个 折 中 。 它 减少 了 锁 的 伪 冲 突 ， 但 ReleaseShared0 

例 程 在 唤醒 等 待 的 写 者 之 前 ， 会 允许 新 的 读者 进入 临界 区 ， 而 这 将 导 玛 读者 使 写 者 饥 俄 ， 尽 
管 这 个 几率 比 使 用 单条 件 变量 时 要 小 的 多 。 
”线程 的 调度 到 目前 为 止 ， 我 们 在 讨论 线程 时 并 没有 考虑 它们 与 操作 系统 的 交互 ， 但 它们 
的 行为 却 依赖 于 它们 是 如 何 被 调度 的 。 为 了 理解 这 个 问题 ， 我 们 需要 先 定义 内 核 线程 (kernel 
thread)， 这 是 内 核 或 操作 系统 中 调度 的 最 小 单元 。 我 们 在 本 章 中 所 讨论 的 线程 可 以 以 不 同 的 
方式 映射 到 内 核 线程 ， 以 下 是 两 种 主要 的 方式 ， 

1 我 们 可 以 将 多 个 线程 映射 到 单个 内 核 线程 。 这 就 意味 着 操作 系统 并 不 知道 有 这 些 线程 
存在 。 它 们 有 时 也 被 称 为 用 户 级 线程 ， 会 比较 高 效 ， 因 为 它们 的 创建 和 销毁 都 无 需 操作 系统 
于 项 。 但 会 有 一 个 问题 ， 即 如 果 其 中 某 个 线程 阻塞 ， 或 许 是 在 等 待 O 操 作 ， 就 会 导致 整个 内 
核 线程 阻塞 ， 映 射 到 该 内 核 线程 的 其 他 线程 都 将 无 法 执行 。 这 种 线程 在 Pthreads 中 被 称 为 非 
RX BAZ (unbound thread), 

“性 一 种 方式 是 将 每 个 线程 映射 到 各 自 的 内 核 线程 。 在 这 种 情况 中 ， 操 作 系统 知道 所 有 
的 线程 。 因 此 当 某 个 线程 阻塞 时 ， 另 一 个 线程 会 被 调度 到 它 的 位 置 开 始 执行 。 这 种 线程 在 
Pthreads 中 被 称 为 约束 线程 (bound thread)。 如 果 使 用 线程 是 为 了 增加 性 能 ， 通 常会 使 用 约束 
线程 。 

在 第 一 种 方式 中 ， 各 线程 在 单 进程 内 竞争 资源 ， 而 在 第 二 种 方式 中 ， 各 线程 竞争 操作 系 
统 释 放 的 少量 系统 资源 。 在 POSIX Threads 中 ， 可 通过 设置 一 个 称 为 范围 竞争 属性 的 线程 属性 
来 指定 调度 方式 (参见 代码 规范 6.18)。 

代码 规范 6.18 POSIX Threads 中 用 来 设置 线程 调度 属性 的 例 程 


线程 调度 属性 


int pthread_attr_setscope( 


pthread_attr_t *attr, 
int contentionscope) ; 
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参量 : 
。 指 向 要 设置 的 属性 的 指针 。 
。 非 约束 线程 设置 为 PTHREAD_SCOPE_PROCESS ， 约 束 线程 设置 为 PTHREAD_ 
SCOPE_SYSTEM, 

返回 值 : 
如 果 成 功 ， 则 为 0， 否 则 为 <errno.h> 中 的 某 个 错误 码 。 

注释 : 

线程 调度 通常 是 操作 系统 特定 的 ， 有 些 操 作 系 统 不 能 同时 支持 这 两 种 调度 方式 。 


优先 级 倒置 还 有 许多 的 调度 细节 尚未 在 本 书 中 提 及 。 例如 , 线程 能 使 用 不 同 的 调度 策略 ， 
而 且 线 程 可 以 有 不 同 的 优先 级 。 在 本 小 节 中 ， 我 们 将 关注 一 个 常见 的 调度 问题 ， 它 将 引起 所 
谓 的 优先 级 倒置 (priority inversion), 

当 低 优先 级 线程 持 有 了 高 优先 级 线程 想 要 获得 的 锁 时 ， 就 会 发 生 优先 级 倒置 。 由 于 高 优 
先 级 线程 必须 在 低 优先 级 线程 持 有 互 斥 体 时 阻塞 ， 所 以 实际 上 高 优先 级 线程 比 低 优先 级 线程 
的 优先 级 要 低 。 如 果 只 有 2 个 线程 ， 则 这 种 情况 只 是 暂时 的 ， 假 设 低 优先 级 线程 终 会 释放 锁 。 
而 且 如 果 临 界 区 较 小 ， 则 该 问题 的 影响 就 会 被 最 小 化 。 但 当 有 第 3 个 线程 被 创建 时 ， 而 且 它 的 
优先 级 处 在 低 优 先 级 与 高 优先 级 之 间 ， 则 这 个 问题 将 变 得 很 棘手 。 这 个 中 优先 级 线程 会 抢占 
低 优先 级 线程 ， 阻 止 低 优先 级 线程 执行 并 释放 锁 。 因 此 只 要 中 优先 级 线程 在 执行 ， 高 优先 级 
线程 只 能 一 直 阻 塞 。 

这 个 问题 有 两 个 常用 的 解决 方案 。 一 个 方案 是 使 用 优先 级 天 花 板 (priority ceiling), ， 即 设 
定 最 高 可 能 的 线程 优先 级 。 任 何 获 得 了 锁 的 线程 都 将 以 最 高 可 能 的 优先 级 执行 ， 这 就 能 防止 
某 个 中 优先 级 线程 的 抢占 。 另 一 个 方案 是 使 用 优先 级 继承 (priority inheritance) 。 一 个 线程 获 
得 了 互 斥 体 后 ， 它 将 暂时 继承 被 阻塞 以 等 待 互 斥 体 的 最 高 优先 级 线程 的 优先 级 ， 当 然 除非 这 
样 做 反而 会 降低 它 原 有 的 优先 级 。 当 该 线程 释放 互 斥 体 后 ， 它 的 优先 级 就 恢复 到 原 有 的 优先 
级 。 因 此 任何 获得 互 斥 体 的 线程 都 将 继承 被 阻塞 的 最 高 优先 级 线程 的 优先 级 ， 因 为 它 在 代表 
被 阻塞 线程 有 效 地 继续 执行 。 


成 组 调度 (Gang Scheduling) ”由 于 在 系统 中 进程 数 通常 比 可 用 处 理 器 数 要 多 许多 ， 因 
此 现代 操作 系统 必须 通过 对 处 理 器 时 间 分 片 来 共享 物理 资源 。 也 即 是 说 ， 操 作 系 统 必 
须 备 有 调度 进程 到 处 理 器 的 策略 。 当 调度 两 个 需要 交互 的 进程 到 不 同时 间 片 中 执行 时 ， 
不 佳 的 调度 对 性 能 是 有 害 的 。 尤 其 是 ， 如 果 进程 p 与 另 一 个 进程 需要 进行 交互 ， 但 没有 
被 调度 到 相同 时 间 片 中 执行 ， 则 进程 p 将 白白 浪费 它 的 整个 时 间 片 来 等 待 一 个 永远 不 会 
发 生 的 事件 。 解 决 该 问题 的 方法 是 采用 称 为 成 组 调度 或 协同 调度 (co-scheduling) 的 策 
略 ， 其 关键 在 于 P 个 需要 交互 的 进程 必须 被 同时 调度 到 P 个 处 理 器 上 。 

在 大 型 并 行 计算 机 上 ， 成 组 调度 是 大 多 数 应 用 程序 员 不 需要 关心 的 系统 问题 。 但 相关 
问题 会 更 普遍 的 存在 于 线程 调度 中 : 即 如 果 并 行程 序 使 用 P+k 个 需要 交互 的 线程 在 P 个 
处 理 器 上 执行 ， 若 k2>0， 则 性 能 通常 会 受 影响 。 我 们 的 结论 是 ， 编 写 代码 时 最 好 是 针对 
数量 固定 但 不 指定 的 处 理 器 ， 如 第 4 章 中 可 扩展 并 行 方法 所 建议 。 


6.1.6 案例 研究 1， 连 续 过 度 松弛 
第 5 章 中 我 们 讨论 了 几 种 将 作业 分 配 到 线程 的 不 同方 法 ， 而 本 章 中 看 到 了 如 何 使 用 线程 表 
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现 并 行 性 。 考 虑 创建 具体 的 并 行 计算 时 ， 会 应 用 到 这 两 个 概念 。 我 们 将 重点 关注 于 那些 影响 
性 能 的 问题 ， 而 将 具体 的 程序 设计 细节 作为 习题 留 给 读者 完成 。 

我 们 的 问题 是 计算 一 个 二 维 的 连续 过 渡 松 弛 eee 
(Successive Over-Relaxation, SOR) 的 程序 ， 它 
能 用 来 求解 3 维 形式 的 偏 微分 方程 组 ， 例 如 可 用 
来 计算 液体 流 的 Navier-Stokes 方 程 。 我 们 的 计算 
从 有 7 个 值 的 二 维 数组 开始 。 在 每 次 迭代 中 ， 计 
算 将 数组 的 每 个 值 替换 为 周围 4 个 最 近邻 居 的 平 
均值 。 那 些 在 数组 边界 上 的 值 将 使 用 预先 确定 的 
常数 值 ， 称 为 边界 值 ， 作为 它们 所 缺失 的 邻居 值 。 

我 们 假定 左边 界 的 边界 值 都 为 1， 其 余 的 边界 值 
都 为 0， 而 二 维 数组 内 的 每 个 值 均 初始 化 为 0。 - es 

处 理 边界 值 最 简单 的 方法 是 将 它们 分 配 到 二 图 6-14 二 维 松弛 (在 每 次 迭代 中 ) 将 所 有 内 部 
维 数组 中 ， 并 用 它们 的 常数 值 初始 化 它们 ， 得 到 值 替换 为 其 周围 4 个 最 近邻 居 的 平均 值 
如 图 6-14 中 所 示 的 情况 。 

为 了 形式 化 描述 我 们 的 并 行 解决 方案 ， 需要 检查 计算 中 出 现 的 数据 相关 性 。 假定 一 个 数 
组 包含 了 当前 的 状态 值 (old ) ， 而 另 一 个 数组 将 被 填充 下 次 和 迭代 的 状态 值 (new) 。 我 们 将 在 
每 次 迭代 的 最 后 ， 交换 这 两 个 数组 的 指针 完成 更 新 。 在 每 次 迭代 中 ， old 数 组 的 每 个 元 素 被 读 
取 了 4 次 ， 因 为 它 是 其 他 4 个 数组 元 素 的 邻居 。 因此 old 数 组 只 会 引入 输入 的 相关 性 。 FE ERIE 
代 中 ，new 数 组 的 每 个 元 素 都 会 被 修改 。 因此 就 该 数组 元 素 而 言 ， 在 单 次 迭代 中 并 不 存在 真正 
的 相关 性 ， 因为 读 取 和 写 入 所 针对 的 是 不 同 数据 ， 但 在 跨 迭 代 的 计算 中 存在 着 真正 的 相关 性 ， 
因为 在 所 有 new 数 组 的 值 更 新 之 前 ， 我 们 不 能 交换 old 数 组 和 new 数 组 的 指针 ， 

在 了 解 该 案例 及 其 数据 相关 性 之 后 ， 我 们 现在 来 问 一 个 简单 的 问题 ， “应 当 静 态 还 是 动态 
地 分 配 工作 ? ” 我 们 总 是 能 使 用 工作 队列 动态 分 配 工作 ， 但 这 种 方法 会 有 两 个 缺点 。 首 先 ， 
必须 负担 访问 工作 队列 的 开销 。 其 次 ， 可 能 会 看 到 减少 的 空间 局 部 性 ， 这 是 因为 每 个 处 理 器 
有 自己 的 L1 cache, 在 不 同 迭 代 中 可 能 会 分 配 到 数组 的 不 同 部 分 。 由 于 工作 相当 的 规则 ( 即 数 
据 结构 是 一 个 二 维 数 组 ， 每 个 数组 元 素 所 需 的 工作 量 基 本 上 是 常数 ， 且 不 会 随时 间 发 生变 化 )， 
且 由 于 工作 能 被 完美 的 划分 ， 因此 在 该 案例 中 ， 采 用 静态 分 配 更 为 合理 。 

由 于 工作 是 规则 且 静 态 的 ， 因此 使 用 尽 可 能 少 的 线程 是 有 意义 的 ， 因为 这 样 能 最 小 化 线 
程 开 销 。 在 程序 初始 时 ， 我 们 将 创建 个 线程 ， 并 大 致 上 分 配 1/t 的 工作 给 每 个 线程 。 在 计算 完 
成 之 前 ， 将 不 会 销毁 这 些 线程 。 还 将 假设 可 以 设置 以 匹配 可 用 的 处 理 器 数 ， 从 而 最 大 化 计算 
的 并 行 性 。 

在 确定 以 静态 分 配 的 方式 将 工作 分 配给 线程 后 ， 我 们 通过 在 每 次 选 代 结束 前 放置 一 个 障 
栅 同 步 ， 来 确保 能 保护 跨 和 迭代 的 相关 性 。 由 于 这 些 障 栅 能 保护 所 有 的 程序 相关 性 ， 因此 也 就 
无 需 再 使 用 任何 其 他 的 锁 或 条 件 变 量 了 。 

那么 ， 如 何 确切 地 把 工作 分 配 到 每 个 线程 ? 正如 第 5 章 中 所 述 ， 可 以 使 用 块 分 解 来 分 配 大 
块 的 工作 ， 或 是 使 用 循环 分 解 来 交叉 分 配 工作 。 由 于 所 求解 的 问题 每 次 迭代 都 会 在 数组 的 所 
ACH Li, 而 负载 平衡 取决 于 分 配 到 各 个 线程 的 工作 量 ， 因此 循环 分 解 的 负载 平衡 优势 
是 最 小 的 。 相 反 ， 块 分 解 有 改进 局 部 性 的 优点 ， 因为 对 于 给 定数 量 的 数组 元 素 ， 循环 分 解 比 
块 分 解 需要 更 多 的 邻居 ， 因而 也 就 需要 访问 更 多 的 数据 。 
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最 后 ， 应 当 使 用 1 维 还 是 二 维 的 块 分 解 ?为 了 回答 这 个 问题 ， 必 须 认识 到 虽然 在 每 次 迭代 
中 并 没有 真正 的 相关 性 ， 但 仍 会 存在 假 共享 的 可 能 性 ， 而 使 用 垂直 的 1 维 块 分 解 策略 能 最 小 化 
该 问题 ， 图 6-15 中 展示 了 该 策略 在 两 个 线程 可 能 存在 假 共享 时 是 如 何 最 小 化 假 共 享 数 据点 的 。 
实际 上 ， 若 使 用 所 建议 的 块 分 解 方法 ， 则 假 共享 能 通过 扩展 左边 或 右边 的 边界 值 来 消除 。 该 
程序 如 图 6-16 所 示 。 











国 边界 值 | 
| 
em 潜在 的 假 共享 | 








图 6-15 ( 左 ) 如 果 假 定 行 优先 的 存储 器 分 配 ， 则 垂直 的 一 维 块 分 解 能 最 小 化 潜在 的 假 共享 。( 右 ) 水 平 的 
一 维 块 分 解 增加 了 潜在 的 假 共享 。 二 维 块 分 解 (未 在 图 中 显示 ) 将 会 进一步 加 剧 潜在 的 假 共 享 ， 
而 循环 分 解 甚至 会 更 糟糕 
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#include <pthread.h> 

#include <limits.h> 

#define MAXTHREADS 16 /* 线程 的 最 大 数量 */ 
void* thread_main(void *); 

void InitializeData(); 

void barrier(); 


pthread_mutex_t update_lock; 
pthread _mutex_t barrier _lock; /* 障 栅 的 互 斥 体 */ 


pthread_cond_t all here; /* 障 栅 的 条 件 变量 */ . 
int count=0; | /* 障 栅 的 计数 器 */ 


int n, t, threshold, rowsPerThread; 
double myDelta; 

double **val, **new; 

double delta=0.0; 


/* 
T ab FRE KN, BAER, BE 


int main(int argc, char *argv[}) 


{ 
/* 线程 fa 和 属性 */ 
pthread t tid[{MAXTHREADS]; 
pthread_attr_t attr; 
int i, Ji 





图 6-16 用 POSIX Threads 编 写 的 二 维 过 度 连续 松弛 程序 
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28 

29 /* 设置 全 局 的 线程 属性 */ 

30 pthread_attr_init(&attr); 

31 pthread_attr_setscope(&attr, PTHREAD SCOPE SYSTEM); 

32 . 

33 /* 初始 化 互 斥 体 和 条 件 变量 */ 

34 pthread _mutex_init(&update_lock, NULL); 

35 pthread_mutex_init(&barrier lock, NULL); 

36 pthread_cond_init(&all_here, NULL); 

37 

38 /* 读 和 人 命令 行 参量 */ 

39 n=atoi(argv[{1]); 

40 t=atoi(argv[2]); 

41 threshold=atof(argv[3]); 

42 rowsPerThread=n/t; 

43 InitializeData(); 

44 

45 for(i=0; i<t; i++) 

46 { 

47 pthread _create(&tid[i], &attr, thread_main, (void *) i); 

48 } 

49 for(i=0; i<t; i++) 

50 { 

51 pthread_join(tid[i], NULL); 

52 } 

53 

54 printf("maximum difference: %e\n", delta); 

55 } 

56 

57 void* thread main(void *arg) 

58 4 

59 int id=(int) arg; 

60 double average; 

61 double **myVal, **myNew; 

62 double **temp; 

63 int i, j; 

64 int start; 

65 

66 /* 确定 该 线程 拥有 的 第 一 行 */ 

67 start=id*rowsPerThreadt+l; 

68 myVal=val; 

69 myNew=new; 

70 

71 do 

72 { 

73 myDelta=0.0; 

74 if(id==0) 

75 { 

76 delta=0.0; /* 重 置 delta 的 共享 值 */ 

77 } 

78 barrier(); 

79 

80 /* 更 新 每 一 个 点 */ 

81 for(i=start; i<start+rowsPerThread; i++) 

82 { 

83 for(j=1; j<n+ł; j++) 

84 { 

85 average=(myVal[i-1][j] + myVal[iJ[j+1] + 

86 myVal[i+1][j] + myVal[ij[j-1])/4; 
图 6-16 (4) 
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myDelta=Max(myDelta, Abs (average-myval[i][j})); 
myNew{i][j]=average; 



















































89 } 
90 } 
91 temp=myNew; /* 为 下 次 迭代 做 叭 备 */ 
92 myNew=myVal; 
93 myVal=temp; 
94 
95 pthread_mutex_lock(é&update_lock); 
96 if (myDelta>delta) 
97 { 
98 delta=myDelta; /* 更 新 delta */ 
99 } 
100 pthread mutex unlock(&update lock); 
101 
102 barrier(); 
103 } while(delta < threshold); 
104 } 
105 
106 void InitializeData() 
107 { 
108 int i, j; 
109 
110 new=(double **) malloc((n+2)*sizeof{float *)); 
111 val=(double **) malloc((n+2)*sizeof(float *)); 
112 for(i=0; i<n+2; i++) 
113 { 
114 new[iJ=(double *) malloc((n+2)*sizeof(float)); 
115 val[iJ=(double *) malloc((n+2)*sizeof(float)); 
116 } 
117 
118 /* 初始 化 为 0.0， 除 了 沿 左边 界 的 设置 为 1.0 */ 
119 for(i=0; i<n+2; i++) 
120 { 
121 valli]{0]=1.0; 
122 new[i][0]=1.0; 
123 } 
124 for(i=0; i<n+2; i++) 
125 { 
126 for(j=1; j<n+2; j++) 
127 { 
128 val[ij[j]=0.0; 
129 new(iJ[jj=0.0; 
130 } 
131 } 
132 } 
133 
134 void barrier() 
135 { 
136 pthread mutex_lock(&barrier lock); 
137 count++; 
138 if(count==t) 
139 { 
140 count=0; 
141 pthread_cond_broadcast(&all_here); 
142 } 
143 else 
144 { 
145 pthread_cond_wait(é&all_here, &barrier lock); 
146 } 


pthread_mutex_unlock(&barrier lock); 






16-16 (48) 
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6.1.7 ”案例 研究 2， 重 又 同步 与 计算 


我 们 曾 在 第 4 章 中 提 到 ， 将 长 时 延 的 操作 与 独立 计算 重 释 起 来 通常 会 很 有 用 。 例 如 ， 在 图 
6-17 中 ,线程 0 在 线程 1 之 前 到 达 障 栅 ， 因 此 对 于 线程 0 而 言 ， 做 些 有 用 的 工作 总 比 单纯 的 闲 等 要 
好 的 多 。 为 了 利用 此 种 机 会 ， 我 们 通常 需要 创建 分 阶段 (split-phase) 操作 ， 它 将 一 个 操作 分 
为 2 个 阶段 : 开始 阶段 和 完成 阶段 ， 如 图 6-18 中 所 示 。 


// 启动 同步 工作 _ 


. barrier.arrived(); 
Barrier ( ) 


时 间 


// 做 些 有 用 的 工作 


的 工作 // 完成 同步 


barrier .wait(); 


做 些 有 用 





图 6-17 在 等 待 某 个 长 时 延 的 操作 完成 时 ,做 些 。 图 6-18 分 阶段 障 机 允许 线程 在 等 待 其 他 线程 到 达 
有 用 的 工作 通常 是 有 好 处 的 障 栅 时 做 些 有 用 的 工作 


让 我 们 通过 一 个 具体 实例 来 了 解 分 阶段 操作 的 作用 。 考 虑 1 维 连续 过 度 松弛 的 程序 ， 其 中 
我 们 的 数组 有 n+2 个 值 ; 2 个 内 部 值 和 2 个 边界 值 。 与 我 们 之 前 研究 的 案例 一 样 ,在 每 次 迭代 中 ， 
计算 都 会 将 所 有 内 部 值 蔡 换 成 它们 左右 2 个 最 近邻 居 的 平均 值 ， 如 图 6-19 中 所 示 。 计 算 1 维 连 
续 过 度 松弛 的 代码 使 用 了 单 阶段 障 栅 ， 如 图 6-20 所 示 ， 此 处 我 们 假设 有 :个 线程 ， 每 个 负责 计 
Fin / 个 值 的 过 度 松弛 。 使 用 了 分 阶段 障 机 后 ， 主 例 程 将 做 如 图 6-21 中 所 示 的 修改 。 


n=8 


—- m aall 


边界 值 内 部 值 边界 值 
图 6-19 一 维 过 度 松 弛 《每 次 选 代 ) 将 所 有 内 部 值 替 换 成 其 左右 2 个 最 近邻 居 的 平均 值 





1 double *val, *new; // 持 有 n 个 值 
2 int n; // 内 部 值 的 数量 
3 int t; // 线程 数 


int iterations; // 所 要 执行 的 选 代数 


void* thread_main(void *arg) 
{ 
int index=(int) arg; 
double *myVal=val; 
double *myNew=new; 
int n_per_thread=n/t; 
int startsindex*n_per_thread+1; 


for(int i=0; i<iterations, i++) 


{ 
// 更 新 值 


for(int j=start; j<start+n_per_ thread; j++) 


myNew[j]=(myVal[j-1]+myVal[j+1])/2.0; 
} 
swap(myNew, myVal); 
barrier(); // 同步 





图 6-20 使 用 单 阶段 障 栅 的 1 维 连 续 过 度 松 弛 程序 
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1 double *val, *new; // 持 有 n 个 值 
2 int n; // 内 部 值 的 数量 
3 int t; // 线程 数 

4 int iterations; // 所 要 执行 的 迭代 数 
5 

6 void* thread main(void *arg) 

7 4 

8 int index=(int) arg; 

9 double *myVal=val; 

10 double *myNew=new; 

11 int n_per_thread=n/t; 

12 int start=index*n_per_thread+l, 

13 

14 for(int i=0; i<iterations, i++) 

15 { 

16 // 更 新 局 部 边界 值 

17 int j=start; 

18 myNew([ Jj }=(myVal[j-1]+myval[4j+1])/2.0; 

19 j=start+n pre thread -1; 

20 myNew[ j]=(myVal[j-1]+myVal[j+1])/2.0; 

21 

22 // 开始 障 栅 

23 barrier.arrived(); 

24 

25 // 更 新 局 部 内 部 值 

26 for(j=start+1; j<start+n_per thread-1; j++) 
27 { 

28 myNew[ j ]=(myVal[j-1]+myVal[j+1])/2.0; 
29 } 

30 swap(myNew, myVal); 

31 

32 // 结束 障 栅 

33 barrier.wait(); 

34 } ` 

35 3} 


图 6-21 使 用 分 阶段 障 栅 的 1 维 连续 过 度 松弛 程序 


实现 分 阶段 障 栅 的 代码 似乎 已 经 足够 直截了当 。 如 图 6-22 中 所 示 ， 我 们 实现 了 一 个 Barrier 
类 来 保存 已 到 达 该 障 栅 的 线程 数量 的 计数 器 。 为 了 启动 同步 ， 每 个 线程 调用 arrived0) 例 程 ， 它 
会 递增 计数 器 。 最 后 一 个 到 达 障 李 的 线程 (参见 第 32 行 ) 会 发 送信 号 给 所 有 的 等 待 者 ， 将 它 
们 唤醒 并 继续 执行 。 最 后 一 个 到 达 的 线程 还 会 把 计数 器 置 为 0 ， 以 便 为 下 次 使 用 障 栅 做 好 准备 。 
为 了 结束 该 同步 ，waitO 例 程 将 检查 计数 器 是 否 为 非 0。 如 果 为 非 0， 它 将 等 待 最 后 一 个 线程 的 
到 达 。 当 然 ， 锁 可 以 用 来 提供 互 斥 ， 而 条 件 变 量 可 以 用 来 实现 同步 。 

但 遗憾 的 是 ， 图 6-22 中 提供 的 代码 无 法 正确 工作 1 尤其 ， 如 果 我 们 考虑 2 个 线程 和 2 次 和 迭 
代 的 执行 ， 如 图 6-23 中 所 示 。 一 开始 ， 计 数 器 为 0。 线 程 0 的 到 达 将 递增 计数 器 的 值 到 1， 线程 
1 的 到 达 应 递增 计数 器 的 值 为 2。 由 于 线程 1 是 最 后 一 个 达到 障 栅 的 线程 ， 它 会 重 置 计数 器 为 0， 
然后 唤醒 所 有 等 待 中 的 线程 ， 当 然 此 处 没有 等 待 的 线程 。 问题 就 出 在 当 线 程 1 先 于 线程 0 到 达 ， 
并 在 线程 0 调用 第 1 次 选 代 的 wait() 之 前 ， 执行 其 下 一 次 选 代 , 即 再 次 调用 arrive0 和 waitO0)。 在 这 
个 例子 中 ， 线 程 1 将 递增 计数 器 到 1 ， 而 当 线程 0 到 达 它 的 等 待 处 时 ， 它 将 被 阻塞 。 此 时 ， 线 程 
0 被 阻塞 以 等 待 第 1 次 迭代 中 的 障 栅 完成 ， 而 线程 1 被 阻塞 以 等 待 第 2 次 迭代 中 的 障 顶 完 成 ， 这 
最 终 导致 了 死 锁 。 当 然 ， 其 实 第 1 个 障 顶 已 经 完成 ， 但 线程 0 却 并 不 知道 这 个 重要 情况 。 
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1 class Barrier 

2{ 

3 int nThreads; // 线程 数 

4 int count; // 参与 的 线程 数 
5 pthread mutex t lock; 

6 pthread cond t all here; 

7 public: 

8 Barrier(int t); 

9 ~Barrier(void); 

10 void arrived(void); // 启动 障 栅 

11 int done(void); // 检查 是 否 完成 
12 void wait(void); // 等 待 完 成 







} 


int Barrier: :done(void) 


{ 
17 int rval; 
pthread_mutex_lock (&lock); 


rval=!count; // 如 果 计 数 为 0， 则 完成 














pthread_mutex_unlock (&unlock); 
23 return rval; 


} 






void Barrier: :arrived(void) 


{ 








28 pthread_mutex_lock(&lock); 

29. count++ // 另 一 个 线程 到 达 
30 

31 // 如 果 最 后 一 个 线程 到 达 ， 则 唤醒 所 有 的 等 待 者 

32 if (count==nThreads) 

33 { 

34 count=0; 

35 pthread_cond_broadcast(&all_here); 

36 } 













pthread_mutex_unlock(&lock); 





39 } 


void Barrier: :wait(void) 
{ 







pthread_mutex_lock(&lock); 





// 如 果 尚 未 完成 ， 则 等 竺 






46 if(count !=0) 
47 { 
48 pthread_cond_wait(&all_ here, &lock); 


49 } 





pthread_mutex_lock( &lock); 






图 6-22 最 初 的 分 阶段 障 栅 实 现 ， 会 维护 已 到 达 线 程 数量 的 计数 器 


当然 ， 我 们 似乎 相当 的 不 走运 ， 使 线程 0 比 线程 1 执行 的 要 慢 但 由 于 我 们 的 障 栅 需 要 在 
所 有 情况 下 都 能 工作 ， 所 以 必须 处 理 这 个 竞 态 条 件 。 

会 发 生 图 6-23 中 的 问题 是 因为 线程 0 所 注视 的 计数 器 状态 是 由 障 棚 的 错误 调用 造成 的 因 
此 解决 方案 就 是 迫 踪 障 栅 的 当前 阶段 。 具 体 地 ， arrived() 方 法 将 返回 一 个 阶段 编号 ， 然 后 传递 
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给 done(0 和 waitO 方 法 。 正 确 的 代码 如 图 6-24 中 所 示 。 由 于 障 栅 例 程 的 接口 发 生 了 改变 ， 因 此 
我 们 需要 修改 之 前 的 松弛 代码 ， 如 图 6-25 中 所 示 。 
线程 0 线程 1 计数 


barrier.arrive() barrier.arrive() ] 
barrier .wait() 0 

时 间 
barrier.arrive() 1 


barrier .wait(); 


barrier.wait(); 


图 6-23 分 阶段 障 机 景 初 实现 中 的 死 锁 ， 线 程 O 和 线程 1 各 自在 等 待 障 栅 的 不 同 实例 





1 class Barrier 
2 { 
3 int nThreads; // 线程 数 
4 int count; // 参与 的 线程 数 
5 int phase; // 该 障 栅 的 阶段 编号 
6 pthread mutex t lock; 
7 pthread cond t all here; 
8 public: 
9 Barrier(int t); 
10 ~Barrier(void); 
11 void arrived(void); // 启动 障 栅 
12 int done(int p); // 检查 阶段 P 是 否 完成 
13 void wait(int p); // 等 待 阶段 P 完 成 
14 } 
15 
16 int Barrier::done(int p) 
17 {4 
18 int rval; 
19 pthread mutex lock(&lock); 
20 
21 rval=(phase!=p); // 如 果 阶 段 编号 改变 ， 则 完成 
22 
23 pthread_mutex_unlock(&lock); 
24 return rval; 
25 } 
26 
27 int Barrier: :arrived(void) 
28 { 
29 int p; 
30 pthread_mutex_lock(&lock) ; 
31 
32 p=phase; // 获得 阶段 编号 
33 count++ // 男 一 个 线程 到 达 
34 
35 // 如 果 最 后 一 个 线程 到 达 ， 则 唤醒 所 有 的 等 待 者 ， 进 入 下 一 个 阶段 
36 if(count==nThreads) 
37 { 
38 count=0; 
39 pthread_cond_ broadcast (&all_here); 
40 phase=1 — phase; 
41 } 
42 
43 pthread_mutex_unlock(élock); 





44 return p; 


图 6-24 正确 的 障 棚 实 现 ， 它 维护 正确 阶段 
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void Barrier::wait(int p) 
48 { 
49 pthread_mutex_lock(é&lock) ; 


51 // 如 果 尚 未 完成 ， 则 等 待 
52 while(p==phase) 


53 { 
54 pthread cond wait(&all here, &lock); 
55 } 






pthread_mutex_unlock(&lock); 





图 6-24 (8) 




















1 double *val, *new; // 持 有 n 个 值 
2 int n; // 内 部 值 的 数量 
3 int t; // 线程 数 
4 int iterations // 所 需 执 行 的 迭代 数 
5 
6 thread_main(int index) 
7 4 
8 int n_per_thread=n/t; 
9 int start=index*n_ per thread+1,; 
10 int phase; 
11 
12 for(int i=0; i<iterations; i++) 
13 { 
14 // 更 新 局 部 边界 值 
15 int j=start; 
16 new[jJ=(val[j-1]+val[j+1])/2.0; 
17 jestarttn_per thread -1; 
18 new[j]=(val[j-1]+val[j+1])/2.0; 
19 
20 // 启动 障 栅 
21 phase=barrier.arrived(); 
22 
23 // 更 新 局 部 内 部 值 
24 for(j=starttl; j<startt+n_per_thread-1; j++) 
25 { 
26 new[jj]=(val[{j-l]+val(j+1])/2.0; // 计算 平均 值 
27 } 
28 swap (new, val); 
29 
30 // 完成 障 机 
barrier.wait (phase); 








图 6-25 图 6-19 中 一 维 过 度 松弛 使 用 分 阶段 障 机 代码 后 的 程序 


使 用 了 新 的 障 机 实现 之 后 ， 图 6-23 中 的 情况 不 会 再 产生 死 锁 。 如 图 6-26 中 所 示 ， 线 程 0 对 
wait(0) 的 显 式 调用 是 为 了 等 待 第 1 次 障 栅 调 用 的 完成 ， 因 此 当 它 执行 第 50 行 的 wait() 例 程 时 ， 
它 将 退出 while 循 环 ， 而 且 永远 不 会 再 调用 pthread_cond_wait0)。 这 样 就 避免 了 死 锁 。 
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线程 0 线程 1 计数 


barrier.arrive() ， . 0 
barrier.arrive() 1 
0 


barrier.wait(0) 


barrier.arrive({) 
barrier.wait(1); 1 


barrier.wait(0); 





图 6-26 ARMA MRM, PLR RAE 


6.18 案例 研究 3， 多 核 芯片 上 的 流 计算 


为 了 理解 针对 多 核 世 片 与 针对 更 加 传统 的 对 称 对 处 理 器 (SMP) 的 解决 方案 之 间 有 何不 
同 ， 我 们 考虑 设计 一 个 并 行程 序 来 压缩 一 部 电影 ， 而 且 关注 于 确定 适当 的 并 行 粒度 。 假 设 处 
理 是 计算 密集 型 的 ， 而 且 需 要 高 带宽 。 此 外 还 假设 电影 由 一 串 帧 简单 地 组 成 ， 其 中 每 帧 都 是 
一 个 二 维 图 像 。 

下 面 罗列 了 所 有 可 能 的 解决 方案 : 

为 每 个 进程 分 配 自 有 的 帧 。 通 过 使 每 个 进程 在 单独 的 帧 上 操作 ， 结 束 后 将 压缩 的 帧 写 回 
到 存储 器 中 ， 我 们 能 以 较 大 的 粒度 并 行 化 这 个 问题 。 该 解决 方案 很 简单 ， 不 需要 在 进程 间 进 
行 通 信 。 但 在 所 有 可 能 的 解决 方案 之 中 ， 该 方案 需要 最 大 的 存储 器 带宽 ， 特 别 是 芯片 上 的 
cache， 而 且 它 不 并 行 化 实际 的 压缩 过 程 ， 而 这 往往 相当 需要 CPU 密集 计算 。 

为 每 个 进程 分 配 单 帧 的 部 分 。 例 如 ， 每 个 进程 压缩 1/P 帧 。 该 解决 方案 使 用 所 有 的 进程 集 
体 压 缩 每 个 帧 ， 因 此 它 只 需要 较 低 的 存储 器 带宽 。 但 是 依据 压缩 算法 ， 该 方案 可 能 需要 在 进 
程 间 进 行 通 信 。 

让 多 个 进程 在 单 帧 的 各 部 分 上 协作 。 我 们 能 够 使 用 更 细 粒 度 的 方法 ， 即 让 所 有 的 进程 在 
单 帧 的 某 一 部 分 上 协作 。 例 如 ， 可 以 载 信 1k 帧 到 片上 cache， 然 后 让 所 有 P 个 进程 协同 压缩 
该 帧 的 一 部 分 。 当 然 ， 这 个 方法 是 否 可 行 主要 取决 于 压缩 是 否 能 使 用 多 个 进程 。 例 如 如 果 算 
法 包含 了 比如 4 个 阶段 ， 它 就 有 可 能 采用 任务 并 行 的 方法 ， 使 得 每 个 进程 执行 4 级 流水 线 中 的 
1 级 。 

最 佳 的 选择 不 仅 取决 于 计算 带宽 和 计算 需求 这 两 者 的 具体 细节 ， 也 取决 于 目标 硬件 的 细 
节 。 如 果 压 缩 是 计算 约束 的 ， 则 更 细 粒 度 的 方法 会 较 有 吸引 力 ， 尤 其 是 如 果 多 核 芯 片 有 较 低 
的 片上 通信 时 延 。 另 一 方面 ， 如 果 压 缩 是 存储 器 约束 的 ， 则 多 核 芯 片 可 能 没有 足够 的 带宽 来 
支持 第 一 种 方案 ， 但 它 在 SMP 上 却 可 能 很 容易 实现 ， 因 为 每 个 处 理 器 都 有 到 主 存储 器 的 自己 
的 接口 ， 以 及 自己 的 片上 cache。 第 三 种 策略 能 同时 最 小 化 总 带宽 和 峰值 带宽 。 


6.2 Java Threads 


Java 或 许 是 所 有 能 显 式 支持 并 行 的 程序 设计 语言 中 使 用 最 为 广泛 的 。 本 节 将 着 重 介绍 Java 
Threads 的 主要 特征 。 这 里 假设 读者 已 经 仔细 阅读 了 之 前 POSIX Threads 一 节 ， 并 且 对 Java 和 基 
本 的 面向 对 象 概念 有 一 定 了 解 。 

Java 对 线程 提供 了 非常 有 趣 的 支持 。 在 它 的 核心 ， 提 供 了 与 POSIX Threads 相 同 的 概念 特 - 
性 ,但 由 于 它 面向 对 象 的 设 定 ， 也 能 支持 更 加 易 用 的 更 高 级 抽象 。 与 此 同时 ， 还 能 支持 可 用 
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来 构建 新 型 并 发 数据 结构 的 低级 特性 。 

在 Java 中 线程 是 Thread 类 的 实例 ， 有 运行 和 同步 线程 的 方法 (其 中 一 些 最 重要 的 方法 请 参 
见 代码 规范 6.19) 。 因 此 Java 程 序 员 可 以 通过 使 用 专门 形式 的 线程 扩展 Thread 类 来 使 用 线程 ， 
但 这 种 方式 是 有 局 限 性 的 ， 因 为 Java 只 支持 单 继承 ， 所 以 一 个 类 扩展 了 Thread 类 之 后 就 不 能 再 
扩展 其 他 类 了 。 

代码 规范 6.19 Java Thread 类 的 方法 


Java Thread 类 


public synchronized void start() 


* 启动 该 线程 ， 并 在 调用 run() 方 靶 之 后 马上 返回 ， 
。 如 果 线 程 已 经 启动 ， 则 抛 出 IllegalThreadStateException 异 常 o 
public void run() 
* 该 线程 的 主体 部 分 ， 在 线程 启动 后 调用 。 
public final synchronized void join(long milis) throws InterruptedException 
“ 等待 该 线程 消亡 。 所 指定 的 超时 可 以 精确 到 微 秒 ， 如 果 超 时 设 为 0， 则 表示 线程 将 永 
远 等 待 下 去 。 
public static void yield() 
“ 导致 目前 正在 执行 的 线程 对 象 放弃 处 理 器 ， 使 得 其 他 一 些 可 运行 的 线程 得 到 调度 
pulic final int getPriority() 
“返回 线程 的 优先 级 。 
public final void setPriority(int newPriority) 
“设置 线程 的 优先 级 。 
注释 : 
如 果 要 查看 Thread 类 公共 方法 的 完整 列表 ， 参 见 java lang Thread, 


幸运 的 是 ， 通 常 并 不 想 改动 线程 的 核心 功能 ， 相 反 ， 我 们 只 是 想 实现 一 个 新 的 例 程 
hread_main。 在 这 种 情况 下 ， 我 们 更 倾向 于 定义 一 个 实现 Runnable 接 口 的 新 类 ， 并 在 主 方法 
中 实例 化 一 个 或 多 个 线程 。 这 种 方法 更 灵活 ， 因 为 它 允 许 新 类 扩展 其 他 类 ， 这 种 方法 也 更 清 
晰 ， 因 为 它 不 会 改变 Thread 类 的 基本 功能 ， 


6.2.1 ”同步 方法 


除了 基本 的 Thread 对 象 ，Java 还 支持 一 个 简单 方法 ， 可 以 通过 使 用 称 为 同步 方法 的 结构 来 
定义 监视 器 。 例 如 ， 可 以 如 下 定义 一 个 同步 计数 器 ， 


Public class SynchronizedCounter 





public synchronized void update(int x) 
{ 
count +=x; 
} 
public synchronized void reset() 


count=0; 
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通过 这 种 定义 ，SynchronizedCounter 类 的 一 个 实例 成 为 了 监视 器 ， 而 且 任 意 时 刻 ， 只 有 
一 个 线程 能 执行 该 实例 任意 的 同步 方法 ， 其 余 线 程 必须 等 待 该 线程 退出 监视 器 。 这 些 监视 器 
用 起 来 非常 方便 ， 因 为 它们 没有 向 外 暴露 保护 监视 器 的 互 斥 体 。 相 反 ， 隐 藏 的 互 斥 体会 被 任 
意 一 个 进入 监视 器 的 线程 隐 式 地 获得 ， 然 后 在 线程 退出 监视 器 时 隐 式 地 释放 。 

注意 锁 由 线程 所 拥有 ， 因 此 一 个 线程 能 再 次 获得 它 已 经 拥有 的 锁 ， 从 而 允许 同步 方法 递归 使 用 。 


6.2.2 同步 语句 


Java 也 提供 了 同步 语句 ， 它 能 支持 比 监视 器 粒度 更 细 的 同步 。 与 POSIX Threads 不 同 ，Java 没 有 特 
殊 的 互 尺 体 数据 结构 ， 相 反 ， 任 意 ]ava 对 象 都 能 用 来 指定 同步 。 因 此 我 们 可 以 如 下 定义 一 个 临界 区 ， 

yapron cod (lock) 

‘ /* 临 界 区 */ 

} 

同步 语句 比 同步 方法 的 粒度 要 细 ， 这 可 从 两 方面 说 明 ， 第 一 ， 临 界 区 可 以 更 小 ， 可 由 某 个 
方法 中 的 单个 块 组 成 。 第 二 ， 两 段 不 交互 的 代码 能 在 独立 对 象 上 同步 ， 从 而 得 到 更 大 的 并 行 性 。 

同步 方法 和 同步 语句 除了 实现 互 斥 之 外 ， 还 有 另 一 个 作用 。 为 了 理解 这 一 点 ， 我 们 需要 
知道 ， 出 于 性 能 的 原因 ， 线 程 在 本 地 保存 了 变量 的 缓存 副本 ， 而 这 些 缓存 副本 中 的 值 可 能 与 
主 存 中 对 其 他 线程 可 见 的 值 有 所 不 同 。 同 步 语 名 和 同步 方法 会 刷新 所 有 线程 缓存 的 值 到 主 
存 中 ， 使 它们 在 那 一 刻 对 所 有 其 他 线程 可 见 。 当 然 ， 这 种 变量 刷新 会 产生 性 能 开销 . 


6.2.3 统计 3 的 个 数 程序 实例 


了 解 线程 和 同步 语句 的 基本 概念 后 ， 现 在 开始 使 用 Java Threads 实 现 统计 3 的 个 数 问题 ， 
如 图 6-27 中 所 示 。 可 以 看 到 使 用 了 Runnable 接 口 ， 在 第 78 行 使 用 了 同步 语句 原子 地 更 新 count 
变量 ， 而 且 该 同步 语句 使 用 了 名 为 lock 的 通用 对 象 提供 同步 。 


import java.util.*; 
import java.util.concurrent.*; 


public class CountThrees implements Runnable 
{ 
private static final int ARRAY_LENGTH=1000000; 
private static final int MAX_THREADS=10; 
private static final int MAX RANGE=100; 
private static final Random random=new Random(); 


private static int count=0; 
private static Object lock=new Object(); 
private static int[] array; 
private static Thread[] t; 


public static void main(String[] args) 


{ 
array=new int[ARRAY_LENGTH]; 





图 6-27 用 Java 实 现 统计 3 的 个 数 问题 的 解决 方案 


O 这 种 存储 器 不 一 致 性 只 是 Java 存 储 器 模型 的 多 种 性 质 之 一 ， 它 会 导致 不 可 预测 的 结果 。 更 多 细节 请 参见 
Java 规 范 请 求 (ISR) 133, 






// 初始 化 数组 中 的 元 素 


} 
// 创建 线程 






for(int i=0; i<counters.length; 





} 






// 运行 线程 


36 for(int i=0; i<counters.length; 
37 { 

38 t[iJ=new Thread(counters[i]); 
39 t[i].start(); 

40 } 

41 for(int i=0; i<counters.length; 
42 { 

43 try 

44 { 

45 t[i].join(); 

46 } 

47 catch(InterruptedException e) 
48 { /* 不 做 任何 事 */  } 


} 
// 打印 3 的 数量 






} 





private int startIndex; 
56 private int elements; 
private int myCount=0; 


60 { 
61 startIndex=start; 
62 elements=elem; 


} 
// 重 载 Thread 类 中 run 方 法 





66 public void run() 

67 { 

68 // 计算 3 的 数量 

69 for(int i=0; i<elements; i++) 
70 { 

71 ` if(array[startindext+i]==3) 
72 { 

73 myCount++; 

74 } 

75 } 

76 synchronized (lock) 

77 { 


count+=myCount; 


图 6-27 ($) 


i++) 


20 for(int i=0; i<array.length; i++) 
21 { 
22 array[i]=random.nextInt (MAX_RANGE) ; 


26 CountThrees[] counters=new CountThrees[MAX THREADS]; 
int lengthPerThread=ARRAY_LENGTH/MAX THREADS; 


30 { 
31 counters[{iJ=new CountThrees(i*lengthPerThread, 
32 lengthPerThread); 


i++) 


i++) 


52 System.out.println("Number of threes: " + count); 


public CountThrees(int start, int elem) 
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6.24 易 变 存储 器 


Java 通 过 使 用 volatile 字 段 修饰 符 ， 为 同步 变量 提供 了 更 轻 量 级 的 选择 。volatile 字 段 修饰 
符 会 告知 语言 实现 ， 某 个 特定 变量 在 寄存 器 中 不 能 有 单独 的 缓存 值 ， 因 为 该 值 必 须 与 其 他 线 
程 所 看 到 的 值 保 持 一 致 。 因 此 任何 时 候 ， 易 变 变 量 都 能 在 所 有 线程 间 保持 一 致 。 但 它 不同 于 
同步 方法 或 同步 声明 ， 使 用 它 不 需要 刷新 线程 中 其 他 变量 的 值 ， 因 此 使 用 易 变 变量 很 高 效 。 


6.2.5 原子 对 象 


Java 5.0 支 持原 子 对 象 ， 在 不 需要 使 用 锁 的 情况 下 ， 可 以 对 单独 的 对 象 实现 原子 操作 ( 参 
见 代 码 规范 6.20)。 例 如 ， java.util.concurrent.atomic 包 实现 了 AtomicBoolean 类 、 
AtomicInteger、AtomicLong 和 AtomicReference 等 类 。 这 些 类 能 支持 原子 地 读 取 和 更 新 变量 的 
操作 ， 因 此 原子 对 象 可 作为 创建 更 高 级 非 阻塞 数据 结构 所 需 的 构件 。 

代码 规范 6.20 Java 原 子 对 象 的 例子 


Atomicinteger 操 作 举 例 


boolean compareAndSet (expectedvalue, updatedVaule) ; 


“如 果 当 前 值 与 expectedValue 相 同 ， 则 原子 地 设置 当前 值 为 updatedVaule。 


int getAndIncrement(); 


“原子 地 读 取 当 前 值 ， 并 将 当前 值 递增 1。 
6.2.6 锁 对 象 


Java 5.0 在 java.util.concurrent.locks 包 中 提供 了 显 式 锁 对 象 。 隐 式 锁 的 一 个 问题 是 无 法 将 锁 回 
收 ， 而 显 式 锁 对 象 就 提供 了 这 种 能 力 ， 能 用 来 防止 死 锁 。 尤 其 是 tryLock0 方 法 提供 了 超时 机 制 。 
6.2.7 执行 器 


Java 5.0 还 有 执行 器 ， 它 将 线程 管理 与 线程 真正 所 完成 的 工作 区 分 开 来 。 和 Pthreads 接 口 
不 同 ， 执 行 器 接口 允许 线程 返回 值 给 它们 的 父 进程 ， 同 时 执行 器 接口 支持 更 灵活 的 调度 工作 ， 
例如 允许 线程 以 给 定 频率 周期 性 地 调用 。 执 行 器 支持 线程 池 的 概念 ， 允 许 程序 重用 线程 ， 这 
远 比 不 断 创建 和 销毁 线程 开销 要 低 。 


6.2.8 并 发 集合 
最 后 ，Java 5.0 支 持 了 一 组 并 发 数据 结构 。 这 些 数据 结构 都 能 被 多 个 线程 并 发 访问 ， 包 括 ， 


e BlockingQueues 





e ConcurrentMap 

e ConcurrentSkipListMap 

其 他 数据 结构 可 以 参考 在 线 资源 。 

通过 上 述 扩展 性 的 支持 ，Java 成 为 了 可 替代 Pthreads 的 便利 方案 。 


6.3 OpenMP 
OpenMP 接 口 是 在 上 世纪 90 年 代 后 期 开发 的 ， 它 为 程序 员 提供 了 一 个 方便 的 方法 ， 可 以 在 
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共享 地 址 空间 的 机 器 上 获得 并 行 性 。 其 基本 的 思想 是 以 辅助 的 方式 增强 串 行程 序 ， 指出 能 并 
行 热 行 的 代码 。OpenMP 模 型 使 用 起 来 明显 比 Pthreads 要 简单 的 多 ， 但 对 可 描述 的 并 行 交 互 类 
型 的 约束 也 要 严格 的 多 。OpenMP 标 准 能 支持 C 语 言 ， C++ 和 Fortran， 在 本 小 节 中 ， 我 们 对 
OpenMP 的 简单 介绍 将 使 用 C 语 言 例子 。 更 多 完整 的 信息 可 以 在 http://www.openmp.org 上 获得 。 


6.3.1 统计 3 的 个 数 程序 实例 


OpenMP 是 通过 pragma 引 入 到 C 或 C++ 程序 中 ， 通过 注释 (comment) 引入 到 Fortran 程 序 
中 。 例如 我 们 在 第 1 章 曾 提 及 的 统计 3 的 个 数 的 程序 中 增加 三 个 pragma 和 一 个 声明 ， 如 图 6-28 
所 示 。 可 以 看 到 pragma 形 式 如 下 所 示 ; 

#pragma omp <specifications> 

兼容 OpenMP 的 C 语 言 编译 器 会 识别 出 该 结构 ， 并 用 <specifications> 生 成 正确 的 多 线程 代 
码 ， 而 那些 不 兼容 OpenMP 的 编译 器 会 简单 地 忽略 pragma， 进行 标准 的 串 行 执行 。 在 图 6-28 中 ， 
可 以 看 到 如 果 将 pragma 当 成 空格 ， 则 结果 是 该 程序 与 第 1 章 中 第 1 个 统计 3 的 个 数 的 程序 基本 相 
同 ， 只 不 过 有 一 些 额 外 计算 ， 但 任何 合理 的 编译 器 都 能 消除 。 因此 在 程序 中 增加 pragma 的 做 
法 在 使 用 兼容 编译 器 时 会 获 益 ， 否则 也 不 会 产生 明显 的 开销 。 

图 6-28 中 第 3 行 的 声明 引入 了 私有 变量 count_p， 它 的 角色 是 提供 线程 指定 的 位 置 ， 使 得 
for 循 环 中 的 每 个 线程 都 能 累加 自己 的 结果 。 第 一 个 pragma (第 5 行 ) 指定 了 程序 主体 部 分 能 
并 行 执行 ， 而 且 指 定 了 在 主体 部 分 中 所 用 到 的 变量 是 共享 的 ， 或 是 私有 的 。 若 未 指定 ， 则 所 
有 变量 默认 都 是 共享 的 。 所 创建 的 线程 数 由 系统 掌握 ， 很 少 由 程序 员 控 制 。 






_ int count3s() 
{ 





1 
2 
3 int i, count_p; 

4 count=0; 

5 #pragma omp parallel shared(array, count, length) \ 
6 

7 

8 






private(count_p) 






{ 
count_p=0; 
9 #pragma omp for schedule(static) private(i) 
10 for(i=0; i<length; i++) 
11 { 








if(array[i]==3) 
{ 






count_pt+; 








15 } 

16 } 

17 #pragma omp critical 
18 { 

19 count+=count_p; 

20 } 

21 } 

22 return count; 







} 


6-28 将 OpenMP 应 用 到 第 1 章 趾 行 的 统计 3 的 个 数 程序 中 。 第 1 个 pragma (第 5 行 ) 识别 出 第 7.21 行 将 
被 并 行 化 ， 第 2 个 pragma (第 9 行 声 明 for 循 环 将 被 多 线程 化 ， 最 后 一 个 pragma (第 17 行 ) 在 临 
界 区 中 组 合 在 多 线程 的 for 循 环 中 所 创建 的 私有 计数 器 


第 2 个 pragma (第 9 行 ) 说 明了 for 循 环 中 的 迭代 能 以 任意 顺序 执行 ， 这 意味 着 该 迭代 可 以 
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并 行 执行 。 因 此 OpenMP 将 为 每 个 线程 分 配 
BRA BALK (totallterations/numThreads) 

次 的 迭代 ， 虽 然 程序 员 也 能 控制 批 处 理 的 大 小 ， 这 会 在 稍 后 解释 。 当 然 如 果 pragma 由 于 存在 
相关 性 而 不 正确 ， 则 并 行 执行 的 结果 将 是 不 可 预测 的 。 即 使 pragma 在 语义 上 是 正确 的 ， 也 不 
是 所 有 for 循 环 都 能 在 OpenMP 中 被 合法 并 行 化 。 如 代码 规范 6.21 中 所 述 ， 置 于 循环 规范 中 的 约 
束 ， 人 允许 编译 器 预测 所 要 执行 的 迭代 次 数 ， 并 将 它们 分 配 到 线程 。 

代码 规范 6.21 OpenMP 的 parallel for 语 句 

Parallel for 

#pragema omp parallel for 

for (<var>=<exprl>;<var><relop><expr2>; <var>=<expr3>) {<body>} 
条 件 : 

*<var> 必 须 是 一 个 带 符 号 的 整 型 变量 ， 且 在 各 个 实例 中 都 相同 。 

。<relop> 必 须 是 <，<=，=>，> 其 中 之 一 。 

*<expr2>，<expr3> 必 须 是 循环 不 变 式 的 整 型 表达 式 。 

。 如 果 <relop> 是 < 或 <=， 则 <expr3> 必 须 每 次 迭代 都 递增 ， 如 果 <relop> 是 => 或 >， 

则 <expr3> 必 须 每 次 迭代 都 递减 。 

“<body> 必 须 是 基本 块 ， 即 没有 其 他 的 进口 或 出 口 。 
注释 ; 

“pragma 行 可 选 的 规范 包括 private 和 nowait。 

e parallel for 所 创建 的 一 组 线程 会 在 结束 时 结合 ， 这 意味 着 隐 式 的 障 栅 同 步 。 


代码 规范 6.22 OpenMP 的 归 约 操作 。<op> 可 从 随后 的 附 表 中 选取 


reducation 
reduction(<op>, list>) 


条 件 : 
。<op> 为 附 表 中 的 某 个 操作 符 ， 其 标识 符 是 归 约 操作 第 一 步 中 左边 操作 数 的 值 。 
。<list> 是 一 组 用 来 归 约 到 累加 值 的 变量 ， 例 如 之 前 统计 3 的 个 数 例子 中 的 count。 
注释 : 
Fortran 有 更 多 的 <op>， 包 括 <min><max>。 














<op> 标识 符 
十 0 
* 1 
~ 0 
& ~0 
| 0 
^ 0 
1 





图 6-28 统 计 3 的 个 数 问题 的 解决 方案 中 ， 每 个 线程 执行 一 批 和 迭代， 并 累加 所 找到 的 3 的 数 
量 到 每 个 线程 的 私有 变量 count_p 中 。 线 程 完成 for 循 环 后 ， 开 始 执行 由 第 3 个 pragma 说 明 的 临 
界 区 〈 第 17 行 )。 编 译 器 使 用 锁 保 护 临界 区 ， 确 保 任意 时 刻 最 多 只 能 有 一 个 线程 进入 临界 区 ， 
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使 得 各 私有 变量 count_p 能 正确 地 组 合 到 全 局 变量 count。 当 所 有 线程 退出 临界 区 ， 到 达 第 1 个 
pragma 并 行 块 末尾 时 ， 它 们 会 结合 ， 并 导致 由 单个 线程 控制 。 景 后 返回 结果 给 调用 程序 。 


6.3.2 parallel for 的 语义 局 限 


虽然 paralle for 对 于 在 串 行程 序 中 引入 并 行 是 一 个 方便 的 工具 ， 但 程序 员 必 须要 谨慎 ， 所 
指定 的 循环 迭代 在 实际 上 必须 是 独立 的 。 例 如 ， 我 们 可 以 编写 如 下 的 统计 3 迭代 ， 

#pragma omp parallel for private(i) 注意 : 这 是 错误 的 代码 ! 

for(i=0; i<length; i++) 


{ 


if(array[i]==3) 


count++; 
} 
} 


但 由 于 count 变 量 是 共享 的 ， 因此 在 不 同 选 代 间 使 用 count 会 存在 流 相 关 ， 这 意味 着 在 不 同 
线程 间 使 用 count 也 会 存在 流 相 关 。 当 所 有 线程 同时 修改 count 时 ， 就 会 产生 一 个 毫 无 意义 的 结 
果 。 图 6-28 中 的 代码 使 用 私有 变量 count_p， 并 在 循环 结束 后 将 这 些 私有 变量 累加 到 count， 以 
此 解决 该 问题 。 除 了 私有 化 变量 外 ， 在 OpenMP 中 ， 相关 性 也 可 以 使 用 atomic ，critical 和 
barrier 等 pragma 加 以 处 理 (参见 代码 规范 6.21)。 


6.3.3 JAX 


OpenMP 的 归 约 pragma 能 简化 需要 全 局 组 合 变量 的 计算 。 程序 员 使 用 reduction 关 键 词 ， 并 
给 出 组 合 操作 符 以 及 需要 累加 的 变量 ， 如 代码 规范 6.22 中 所 示 。 因 此 最 佳 的 OpenMP 的 统计 3 
的 个 数 解决 方案 可 能 如 下 所 示 : 

count=0; l 

#pragma omp parallel for reduction(+,count) 

for(i=0; i<length; i++) 

t count +=(array[i]==3)?1:0; 

} 

Sah as SE ILA RBA RIAD RER, 即 先 在 局 部 累加 计数 器 ， 然 后 自动 组 合 这 些 结果 。 

代码 规范 6.23 OpenMP 中 原子 性 规范 






atomic 





#pragma omp atomic 










<var> <op> <expr> | <expr>++ | <expr>-- | ++<expr> | --<expr> 

效果 : 

该 pragma 之 后 的 语句 执行 不 可 间断 。 
FIF: 

“<var> 是 一 个 程序 变量 。 

"<op> 是 以 下 操作 之 一 : +=、-=、 人 、<<=、>>=、&=、 人 =、A=， 

“<expI> 可 以 是 任意 的 合法 表达 式 。 
注释 : 






在 循环 中 使 用 原子 操作 会 导致 严重 的 性 能 问题 。 
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6.3.4 线程 的 行为 和 交互 


在 OpenMP 中 ， 通 常会 创建 线程 以 适应 parallel for。 在 parallel for 结 束 时 ， 各 线程 会 结合 
到 一 起 ， 作 为 单个 线程 继续 执行 。 这 种 结合 以 及 parallel for 结 尾 处 的 隐 式 障 栅 ， 可 以 通过 在 
parallel for pragma 中 放置 nowait 的 pragma 加 以 避免 

#pragma, omp parallel for nowait 

如 此 ， 在 循环 结尾 处 ， 线 程 会 简单 地 接着 执行 parallel for 之 后 的 指令 。 注 意 ， 这 种 方式 的 
主要 优势 在 于 紧 随 其 后 的 语句 也 是 parallel for 时 。 

为 了 确保 线程 修改 某 个 公有 变量 时 ， 不 会 被 其 他 线程 所 干扰 ， 可 以 使 用 atomic 进 行 标识 ; 

#pragma omp atomic 

score +=3; 


atomic 标 识 能 保证 存储 器 更 新 不 会 被 干扰 ， 即 机 器 指令 序列 (1) 从 存储 器 中 加 载 变量 ， 
(2) 递增 变量 的 值 ，(3) 返回 变量 到 存储 器 ， 将 总 是 作为 单个 单元 执行 。( 其 他 类 型 的 变量 更 
新 也 是 有 可 能 的 ， 如 代码 规范 6.23 中 所 示 )。 当 然 ， 如 果 在 循环 中 反复 执行 此 种 指令 ， 则 会 影 
响 到 性 能 ， 因 为 线程 必须 串 行 地 访问 变量 。 

建立 临界 区 比 更 新 简单 变量 要 复杂 得 多 ， 可 使 用 如 下 的 排他 程序 。 


#pragma omp exclusive (oneAtATime) 


{ 
+ .任意 时 刻 只 有 一 个 线程 在 此 处 .. . 
} 


它 元 许 整 个 块 没有 冲突 的 执行 ， 因 为 任意 时 刻 ， 只 允许 一 个 线程 执行 临界 区 。 贺 括号 中 
的 命名 (oneAtATime) 是 可 选 的 临界 区 命名 。 如 果 一 个 程序 的 多 处 位 置 都 使 用 了 相同 的 名 ， 
则 当 某 个 线程 执行 其 中 一 个 临界 区 时 ， 将 排斥 所 有 其 他 位 置 的 所 有 线程 。 如 果 未 命名 ， 则 相 
当 于 所 有 未 命名 的 临界 区 都 使 用 同一 个 命名 。 


6.3.5 段 


OpenMP 使 用 sections 的 pragma 表 示 任 务 并 行 。 例 如 ， 如 果 有 三 个 独立 的 任务 ，Task_A0， 
Task BO 和 Task_ CO， 它 们 可 以 并 行 执行 且 相 互 之 间 没 有 相关 性 ， 则 其 并 行 执行 能 以 如 下 方式 指定 ， 


#pragma omp sections 
{ 
#pragma omp section 


Task_A(); 
} 
#pragma omp section 
{ 
Task_B(); 
} 
# pragma omp section 
{ 
Task_C(); 
} 
} 


sections 之 后 的 代码 块 列 出 了 并 行 任务 ， 可 以 是 任意 的 C 代 码 块 ， 包 括 函 数 调用 ， 且 不 限 
任务 数 。 这 其 中 的 语义 是 每 段 都 由 一 个 线程 控制 ， 且 直至 执行 到 完成 都 与 其 他 线程 无 关 。 执 
行 的 顺序 并 未 指定 。 注 意 每 个 pragma 之 后 的 块 都 必须 从 自己 的 行 上 开始 。 
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6.3.6 OpenMP 总 结 


这 一 他 OpenMP 的 简单 介绍 说 明了 该 方法 简单 易 用 。 其 方便 性 源 自 于 限制 了 程序 员 对 并 行 
的 控制 ， 限 定 了 所 提供 信息 的 数量 。 无 论 如 何 ， 当 “少许 并 行 ”就 足够 时 ， 它 会 比较 方便 。 
更 多 信息 请 参考 OpenMP 的 网 站 ， 也 可 以 参见 第 9 章 中 的 评论 ， 其 中 将 OpenMP 与 其 他 程序 设 
计 技 术 进 行 了 比较 。 

共享 虚拟 存储 器 为 什么 基于 线程 的 程序 无 法 在 那些 不 支持 共享 存储 器 的 机 器 上 执行 ? 

为 什么 不 能 使 用 软件 在 这 种 机 器 之 上 提供 虚拟 的 共享 地 址 空间 ? 这 些 问题 在 上 世纪 80 

年 代 和 90 年 代 之 间 曾 进行 了 深入 的 研究 。 其 根本 问题 在 于 共享 虚拟 存储 器 系统 需要 处 

理 所 有 的 数据 移动 ， 当 不 了 解 应 用 的 共享 行为 时 ， 会 很 难 做 到 有 效 地 处 理 ， 尤 其 是 ， 

在 共享 粒度 上 存在 折 中 : 粗 粒 度 能 减少 处 理 器 间 通 信 的 开销 ， 但 会 带 来 假 共 享 ， 而 细 

粒度 会 减少 假 共享 ， 但 会 增 大 数据 移动 的 开销 。 通 常 ， 我 们 会 理想 化 地 期 望 共享 诬 拟 

丫 储 器 系统 的 共享 粒度 能 与 应 用 共享 的 豆 辑 粒度 相 匹配 。 当 然 ， 即 使 这 底层 的 共享 座 

拟 有 储 器 系统 变 得 非常 高 效 ， 基 于 线程 的 程序 设计 是 否 就 是 最 住 的 程序 设计 模型 还 是 

个 未 知 数 。 


6.4 小 结 


POSIX Threads 是 非常 强大 的 并 行程 序 设计 工具 ， 它 将 巨大 的 潜能 交 到 了 程序 员 手中 ， 从 
好 的 一 面 来 说 ， 基 于 线程 的 程序 所 使 用 的 技巧 几乎 没有 任何 限制 ， 这 给 予 了 程序 员 得 出 高 效 
且 有 效 的 解决 方案 的 能 力 。 从 坏 的 一 面 来 说 ， 这 种 能 力 同时 伴随 着 相当 大 的 风险 。 例 如 这 类 
程序 需要 有 精细 的 管理 ， 以 此 确保 正确 性 、 无 况 态 条 件 、 无 死 锁 以 及 无 难以 氟 模 的 性 能 瓶颈 。 

Java 通 过 提供 对 监视 器 和 更 高 级 并 发 数据 结构 的 支持 ， 提 供 了 一 种 更 简单 的 线程 接口 ， 
但 由 于 这 些 接口 不 够 通用 ， 因 此 Java 还 提供 了 低级 的 接口 以 实现 POSIX Threads 中 的 诸多 功能 
OpenMP 展 示 了 如 何 进行 约束 ， 以 提供 一 个 特别 简单 但 又 不 太 通 用 的 程序 设计 模型 。 当 我 们 展 
望 未 来 ， 一 个 尚未 有 答案 的 问题 是 我 们 能 否 确定 一 个 高 级 抽象 集合 ， 它 位 于 OpenMPSPOSIX 
reads 之 问 ， 既 满足 程序 设计 的 方便 性 和 灵活 性 ， 又 能 兼顾 特殊 的 性 能 需要 。 这 是 一 个 值得 
深思 而 又 吸引 人 的 问题 。 


历史 回顾 


死 锁 的 四 个 必要 条 件 首先 由 Coffman 等 人 提出 [1971]。 Hoare[1974] 和 Brinch Hansen[1975] 
在 上 世纪 70 年 代 中 期 分 别提 出 了 稍 有 不 同 的 监视 器 。 许 多 POSIX Threads 的 实现 基于 IEEE 
POSIX 1003.1c-1995 标 准 ， 也 有 许多 现成 的 书籍 和 教程 介绍 其 高 级 技巧 。 OpenMP 是 上 世纪 90 
年 代 后 期 由 供应 商 和 学 术 界 组 成 的 社区 所 创建 的 。 | 
习题 
1 编写 一 个 简单 的 C 程 序 ， 确 定 多 核 芯片 是 否 能 保持 一 致 的 cache。( 请 回忆 cache 可 以 是 多 层次 的 ) 

你 编写 的 程序 每 次 执行 者 确实 能 提供 正确 答案 吗 ?如 果 允 许 用 汇编 语言 编写 (这样 就 可 以 使 用 
Pthreads 调 用 ) ， 能 改进 你 的 程序 吗 ? 


2. 在 约束 缓冲 器 例子 中 ， 我 们 使 用 单个 互 斥 体 同时 保护 nonempty 和 nonfull 这 两 个 条 件 变量 。 能 否 
为 每 个 条 件 变量 各 自 配 备 一 个 互 斥 体 ? 折 中 方案 又 是 怎样 的 ? 
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3. pthread_cond_waitO 例 程 将 保护 性 互 斥 体 的 地 址 作为 参数 ， 因 此 该 例 程 能 原子 地 阻塞 等 待 线程 ， 
并 原子 地 释放 被 等 待 线 程 持 有 的 锁 。 解 释 为 什么 这 两 个 操作 必须 原子 地 执行 ? 

4. 针 对 图 6-1 中 约束 缓冲 区 的 例子 ， 举 出 一 个 关于 缓冲 区 的 不 变 式 。 它 必须 在 监视 器 之 外 成 立 ， 但 
有 时 在 监视 器 之 内 不 满足 。 提 示 : 答案 可 能 是 某 个 C 语 言 代码 无 法 检查 的 不 变 式 。 

5. 修改 约束 缓冲 区 的 代码 ， 以 允许 缓冲 区 的 容量 使 用 每 个 位 置 。 注 意 修改 时 不 能 引入 额外 的 变量 。 

6. 用 Pthreads 实 现 一 个 2 维 连续 过 度 松弛 程序 ， 它 使 用 分 阶段 的 障 栅 。 研 究 不 同 的 数据 划分 ， 并 观 
察 这 之 间 是否 有 明显 的 性 能 差异 。 

7. 测试 图 6-27 中 给 出 的 OQpenMP 统 计 3 的 个 数 的 程序 ， 度 量 其 性 能 ， 并 根据 你 计算 机 上 的 处 理 器 数 确 

8. 编写 OpenMP 程 序 解 决 红 / 蓝 仿真 问题 (参见 第 4 章 中 的 习题 10)。 

9. 使 用 习题 8 中 你 给 出 的 解决 方案 ， 试 着 通过 提高 访问 的 局 部 性 提高 性 能 。 

10. 编写 Java Threads 程 序 解决 红 / 蓝 仿真 问题 (参见 第 4 章 中 的 习题 10)。 


第 7 章 MPI 和 其 他 局 部 视图 语言 


在 第 6 章 中 ， 我 们 关注 了 面向 共享 地 址 空间 计算 机 的 语言 ， 本 章 和 下 一 章 将 讨论 能 运行 在 
任意 并 行 计算 机 上 的 语言 。 我 们 将 这 些 语言 分 成 两 大 类 ， 局 部 视图 语言 (本章 的 主题 ) 和 全 
局 视图 语言 (第 8 章 的 主题 )。 我 们 会 在 第 9 章 中 定义 这 两 个 概念 ， 现在 只 需 知道 全 局 视图 语言 
提供 了 一 些 局 部 视图 语言 未 曾 提供 的 概念 性 的 便利 。 

与 第 6 章 中 一 样 ， 我 们 所 说 的 “语言 ” 包含 库 在 内 。 本 章 的 主题 是 消息 传递 接口 
(Message Passing Interface, MPI), 这 个 库 在 局 部 视图 语言 中 已 经 成 为 了 标准 。 之 后 将 简单 
介绍 3 种 近期 开发 的 语言 ，Co-Array Fortran, Unified Parallel C 和 Titanium， 它 们 展示 了 局 部 
视图 语言 如 何 将 抽象 层次 提升 到 MPI 之 上 。 


7.1 MPI: 消息 传递 接口 


MPI 程 序 设计 模型 极其 简单 。 它 提 供 了 一 个 分 布 式 存储 器 的 程序 设计 模型 。 一 组 进程 在 该 
模型 中 通过 发 送 消息 进行 通信 。 进 程 管 理 在 MPI 外 部 进行 。 MPI 的 执行 一 开始 会 有 一 些 静态 数 
量 的 进程 ， 通 常 每 个 进程 会 被 分 配 到 不 同 处 理 器 。 由 于 每 个 进程 都 有 各 自 的 地 址 空间 ， 程 序 
员 必须 明确 地 表示 他 们 的 程序 ， 以 使 各 实例 能 在 分 布 式 数 据 结构 的 各 独立 部 分 上 运行 ， 

尽管 概念 很 简单 ， 但 MPI 却 提供 了 超过 一 百 个 的 例 程 。 在 本 节 中 ， 我 们 将 关注 于 构造 这 些 
例 程 的 主要 思想 。 首 先 ， 我 们 使 用 统计 3 的 个 数 程序 实例 来 介绍 MPI 程 序 的 基本 结构 。 此 处 我 
们 使 用 了 MPI 的 C 语 言 绑 定 ， 而 MPI 标 准 还 提供 了 Fotran 和 C++ 的 绑 定 。 之 后 将 更 为 详细 地 解 
释 MPI 的 核心 概念 ， 并 介绍 一 组 最 常用 的 MPI 函 数 。 | 

在 线 MPI 教 程 ” 想 了 解 MPI 更 多 的 细节 ， 包括 例子 和 文档 ， 请 参考 美国 Lawrence 

Livermore 实 验 室 的 网 站 : http://www inl -g0v/computing/tutorials/mpi/ 


7.1.1 统计 3 的 个 数 程序 实例 


图 7-1 显 示 了 一 个 解决 统计 3 的 个 数 问题 的 MPI 程 序 ， 图 中 第 12 ~ 14 行 和 第 66 行 给 出 了 对 于 
所 有 MPI 程 序 都 通用 的 4 个 基本 MPI 例 程 。 

MPI_Init() (第 12 行 ) 用 来 初始 化 MPI 的 数据 结构 ， 它 必须 在 每 个 进程 调用 任何 其 他 MPI 
例 程 前 被 调用 。MPI_Finalize() (第 66 行 ) 用 来 清除 MPI 的 数据 结构 ， 它 必须 是 进程 调用 的 最 
后 一 个 MPI 例 程 。 

MPI_Comm_size() (第 13 行 ) 用 来 确定 在 某 个 特定 MPI 通 信子 (communicator) 中 的 进程 
数 。 我 们 会 在 下 一 节 中 更 多 地 讨论 通信 子 的 概念 ， 现 在 只 需 知 道 默认 的 通信 子 
MPLCOMM_WORLD 包 含 了 所 有 进程 。 

MPI_Comm_rank() (第 14 行 ) 用 来 返回 在 通信 子 中 正在 执行 的 进程 的 序号 (rank), EE 
在 通信 子 中 用 作 区 分 各 个 进程 的 唯一 标识 ， 它 允 许 进程 指定 它们 所 希望 通信 的 进程 。 该 序号 是 
一 个 位 于 0 与 P-1 之 间 的 整数 ， 含 P-1， 其 中 P 是 通信 子 中 的 进程 数 。( 参 见 代 码 规范 7.1 ~7.4)。 
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PERD ÄERER 





1 #include <stdio.h> 

2 #include "mpi.h" 

3 #include "globals.h" 
4 

5 int main(argc, argv) 
6 int argc; 

7 char **argv; 

8 { 

9 





int myID, value, numProcs; 
MPI Status status; 











MPI Init(&argc, &argv); 
13 MPI_Comm_size(MPI_COMM_ WORLD, &numProcs); 
MPI_Comm_rank(MPI_COMM WORLD, &myID); 






length_per_process=length/numProcs; 















17 myArray=(int *) malloc(length_per process*sizeof(int)); 
18 、 、 > 

19 ”/* 读 和 人 数据 ， 并 将 其 在 不 同 进程 间 分 配 */ 

20 if (myID==RootProcess ) 

21 { 

22 if((fp=fopen(*argv, "r"))==NULL } 

23 { 

24 printf("fopen failed on %s\n", filename); 

25 exit(0); 

26 } 

27 fscanf(fp,"%d", &length); /* 读 入 输入 的 大 小 */ 






29 for(p=0; p<numProcs-1; p++) /* 代 表 各 个 其 他 进程 读 入 数据 */ 
{ 


for(i=0; i<length per process; i++) 
32 { 







fscanf(fp,"%d", myArray+i); 






} 
MPI_Send(myArray, length per process, MPI_INT, ptl,- 
tag, MPI_COMM WORLD); 






} 


for(i=0; i<length_per_ process; i++) /* 现 在 读 入 自己 的 数据 */ 
{ 

41 fscanf(fp,"%d", myArrayt+i); 

42 } 
43 } 
else 












MPI_Recv(myArray, length per process, MPI_INT, RootProcess, 
tag, MPI_COMM WORLD, &status); 





48 } 







/* 做 实际 的 工作 */ 
51 for(i=0; i<length_per_process; i++) 
52 { 







if (myArray{i]==3) 
{ 





myCount++; /* 更 新 局 部 count 值 */ 






56 } 
} 






MPI_Reduce(&myCount, &globalCount, 1, MPI_INT, MPI SUM, 
RootProcess, MPI_COMM WORLD); ~ 








62 if(myID==RootProcess) 

63 { 

s printf ("Number of 3's: %d\n", globalCount); 
} 

66 MPI Finalize() 





67 return 0; 





图 7-1 统计 3 的 个 数 问题 的 MPI 解 决 方案 
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代码 规范 7.1 MPI_Init() 


MPI_Init() 
int MPI_Init( // 初始 化 MPI 
int *argc, // 命令 行 参量 数 
char ** argv, // 命令 行 参量 
)7 


在 每 个 MPI 进 程 中 ， 该 例 程 必 须 在 任何 其 他 MPI 例 程 调用 前 调用 。 在 一 个 进程 中 调 
用 该 例 程 超过 一 次 就 会 发 生 错 误 ， 除 非 随后 有 一 个 MPL_Finalize() 被 调用 。 

返回 值 : 
某 个 MPI 错 误 码 。 


代码 规范 7.2 MPI_Finalize() 





MPI_Finalize() 
int MPI_Finalize( 
3 
FR: 
在 每 个 MPI 进 程 中 ， 该 例 程 必 须 是 最 后 一 个 被 调用 的 MPI 例 程 ， 它 只 能 在 所 有 其 他 
MPI 例 程 完成 之 后 被 调用 。 尤 其 是 ， 任 何 未 完成 的 通信 操作 都 必须 在 调用 该 例 程 之 
前 完成 。 
返回 值 ， 
茶 个 MPI 错 误 码 。 


代码 规范 7.3 MPI_Comm_Size() 
MPI_Comm Size() 


int MPI_Comm_Size( // 获得 指定 通信 子 中 的 任务 数 
MPI_Comm comm, // 指定 的 通信 子 
int *size, // 任务 数 





) 7 
参量 ; 

。 指 定 的 通信 子 。 

“指向 大 小 的 指针 ， 其 目标 将 包含 指定 通信 子 中 的 任务 数 。 
注释 : 

该 例 程 将 获得 通信 子 中 的 进程 数 。 
返回 值 ， 

某 个 MPI 错 误 码 。 


代码 规范 7.4 MPI_Comm_Rank() 





MPI_Comm Rank() 


int MPI_Comm_Rank( // 获得 某 个 进程 在 通信 子 中 的 序号 
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MPI_Comm comm, // 通信 子 
int *rank, // 序号 


参量 


* 指定 的 通信 子 。 


。 指 向 序号 的 指针 ， 其 目标 将 包含 某 个 进程 在 指定 通信 子 中 的 序号 。 
注释 : 
_+ ， 该 例 程 将 获得 某 个 进程 在 通信 子 中 的 序号 。 
某 个 MPI 错 误 码 。 


为 了 理解 这 段 代码 的 主体 部 分 ， 假 设 文件 globals.h 包 含 了 以 下 代码 行 : 


#define RootProcess 0 
int length; 

int length per process; 
int myStart; 

int myCount=0; 

int globalCount; 

MPI Status status; 

int tag=1; 


第 19 一 48 行 显示 了 点 对 点 通信 〈 即 从 一 个 进程 发 送 数据 到 另 一 个 进程 )， 如 何在 不 同 进程 
闻 分 发 数据 (〈 稍 后 我 们 将 看 到 如 何 使 这 种 分 发 更 为 简捷 有 效 地 执行 )。 这 段 代码 从 一 个 称 为 根 
进程 (root process) 的 单个 进程 开始 ， 从 文件 中 读 入 数组 内 容 ， 然 后 分 发 这 些 数据 到 其 他 进 
程 。 在 第 22~27 行 ， 根 进程 根据 从 命令 行 参量 传人 的 名 字 ， 打 开 该 名 字 所 指定 的 文件 ， 然 后 
读 入 文件 大 小 。 第 29~37 行 ， 根 进程 将 文件 内 容 读 入 到 numProcs 个 字 节 块 (chunk) 中 ， 然 后 
发 送 前 numProcs 一 1 个 字 节 块 到 其 他 进程 ， 同 时 保留 最 后 一 个 字 节 块 为 已 所 用 。 

具体 地 ， 第 35 行 使 用 MPI_Send() 例 程 将 数据 发 送 到 其 他 进程 。 在 MPI 中 ， 这 种 通信 在 发 
送 者 和 接收 者 双方 做 了 元 余 指 定 。 因 此 第 44 ~48 行 显示 了 numProcs — 1 个 非 根 进程 调用 
MPI_RecvO 接 收 数据 。 我 们 看 到 需要 许多 细节 才能 指定 这 样 的 一 个 消息 ， 比 如 MPI_Send0 有 6 
个 参数 ， 而 MPL_RecvO 有 7 个 。 这 些 参 数 指定 了 涉及 该 通信 操作 的 其 他 进程 、 消 息 的 类 型 和 长 
度 以 及 标记 (tag， 即 消息 标记 )。 代 码 规范 7.5 和 7.6 给 出 了 全 部 细节 。 

代码 规范 7.5 MPI_Send0 





MPI_Send() 
int MPI_Send( // 阻 塞 式 发 送 例 程 
void *buffer, // 欲 发 送 数 据 的 地 址 
int count, // 欲 发 送 数 据 元 素 的 数量 
MPI Datatype type, // 欲 发 送 数 据 元 素 的 类 型 
i dest, // 目 的 地 进程 ID 
tag, / /识别 该 消息 的 标记 
comm / /MPI 通 信子 


* 欲 发 送 数 据 的 地 址 。 
* 欲 发 送 数 据 元 素 的 数量 。 





#7¥ MPIRA RH RET 149 
= ERP 19 


“ 接收 该 消息 的 进程 ID 。 
“ 消息 标记 ， 它 能 将 该 消息 与 发 送 到 同一 进程 的 其 他 消息 区 分 开 来 。 
“ 所 要 使 用 的 MPI 通 信子 。 

注释 : 


该 例 程 用 来 发 送 消息 到 另 一 个 进程 。 它 具有 阻塞 式 语义 ， 即 直 到 消息 被 发 送 后 ， 例 

程 才 会 返回 。MPL_Isend0 是 该 发 送 操作 的 非 阻塞 式 版 本 。 它 使 用 了 MPI_Request 类 

型 的 第 7 个 参数 ， 用 来 在 等 待 完成 时 将 该 发 送 与 其 他 MPL Isend0 调 用 区 分 开 来 。 
返回 值 : 

某 个 MPI 错 误 码 。 


代码 规范 7.6 MPI_Recv() 


MPI_Recv() 
int MPI_Recv( 











// 阻 塞 式 接收 例 程 











void *buffer, // 欲 接收 数据 的 地 址 
int count, // 欲 接收 数据 元 素 的 数量 
MPI_Datatype type, / /和 欲 接收 数据 元 素 的 类 型 
int source, / /发送 进程 的 ID 

int tag, / /识别 该 消息 的 标记 
MPI_Comm comm, //MPI 通 信子 
MPI_Status *status / /该 接收 操作 的 状态 


); 
Se. 
“前 6 个 参量 分 别 对 应 于 MPI_Send() 的 参量 ， 
* 如 欲 从 其 他 任意 进程 接收 消息 ， 则 在 source 处 使 用 MPI_ANY_SOURCE， 
*。 如 欲 匹 配 任 意 标 记 ， 则 在 第 5 个 参数 处 使 用 MPI_ANY_TAG， 
注释 : 
该 例 程 从 其 他 进程 处 接收 数据 。 它 有 阻塞 式 语义 ， 即 直到 接收 到 消息 后 ， 例 程 才 会 
返回 。MPI_Irecv() 是 该 接收 操作 的 非 阻塞 式 版 本 。 它 使 用 了 MPI_Request 类 型 的 第 
7 个 参数 ， 用 来 在 等 待 完成 时 将 该 接收 与 其 他 MPI_Irecv0) 调 用 区 分 开 来。 
. 返回 值 ; 
某 个 MPI 错 误 码 。 


真正 的 工作 是 在 第 50~ 57 行 完成 的 ， 此 处 每 个 进程 统计 自己 那 部 分 数组 的 3 的 数量 。 最 终 ， 
通过 调用 MPI_Reduce() 将 各 个 count 的 本 地 值 相 加 ， 归 约 成 单个 值 。MPI_Reduce() 是 涉及 了 通 
信子 中 多 个 成 员 的 集合 通信 操作 的 一 个 实例 (参见 代码 规范 7.7) 。 在 本 例 中 ， 每 个 进程 都 提 
供 了 单个 整数 ， 所 有 这 些 值 相 加 后 ， 会 返回 到 根 进程 中 由 第 2 个 参数 所 指定 的 地 址 。 请 注意 ， 
此 处 将 私有 变量 的 概念 引入 到 消息 传递 中 是 如 此 的 自 然 ! 

集合 通信 操作 比 点 对 点 通信 操作 要 更 加 容易 使 用 。 例如 数组 数据 的 分 发 ， 在 第 35 行 和 46 
行使 用 了 点 对 点 通信 ， 而 如 果 使 用 MPI_Scatter() 将 会 更 为 简洁 ， 它 是 一 个 能 将 数据 从 一 个 进 
程 分 发 到 所 有 其 他 进程 的 集合 操作 (参见 代码 规范 7.8) 。 如 图 7-2 所 示 ， 整个 输入 数组 被 读 入 
到 单个 数组 中 ， 然 后 使 用 MPI_Scatter0 例 程 将 该 数组 散射 到 通信 子 MPI_COMM_WORLD 中 的 
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所 有 进程 。 注意 MPI Scatter(0) 将 被 所 有 参与 的 进程 调用 。MPIL_Gather0 是 一 个 与 之 相对 的 例 程 ， 
它 从 多 个 进程 处 收集 数据 ， 然 后 放置 到 一 个 进程 中 (参见 代码 规范 7.9)。 


length_per_process=length/size; 
myArray=(int *) malloc(length_per_process*sizeof(int)); 


array=(int *) malloc(length*sizeof(int)); 


/* 读 人 数据 ， 在 不 同 进程 间 分 配 */ 
if (myID==RootProcess) 


if((fp=fopen(*argv, “r"))==NULL) 
{ 


print£("fopen failed on %s\n", filename); 
exit(0); 


} 
fscanf(fp,"%d", &length); /* 读 入 输入 的 大 小 */ 
for(i=0; i<length-1; i++) /* 读 人 整个 输入 文件 */ 
{ 
fscanf(fp,"%d", myArray+i); 
} 
} 
MPI_Scatter(Array, length | per_process, MPI_INT, 


myArray, length per process, MPI_INT, 
RootProcess, MPI_COMM_WORLD) ; 





图 7-2 使 用 散射 操作 分 发 数据 的 替换 代码 (对 应 于 图 7-1 中 第 16 一 48 行 ) 
代码 规范 7.7 MPI_Reduce() 


MPI_Reduce() 

int MPI_Reduce( // 归 约 例 程 
void *sendbuffer, // 欲 发 送 数据 的 地 址 
void *recvbuffer, / tee Be He Hh hk 
int count, // 欲 接收 数据 元 素 的 数量 
MPI_Datatype datatype, / /每 个 元 素 的 类 型 
MPI_OP op, / /MPI 操 作 符 
int root, / /将 保存 结果 的 进程 
MPI_Comm comm //MPI 通 信子 

); 


注释 ; 
该 例 程 实现 了 归 约 操作 。 它 的 一 个 特殊 形式 MPI_AIlIReduce(), 会 把 所 有 进程 当 作 
根 结 点 一 般 对 待 ， 这 意味 着 归 约 后 的 值 将 被 传递 到 所 有 进程 中 由 第 2 个 参数 所 指定 
的 地 址 。MPI_AllReduceO 相 当 于 调用 MPI_ Reduce() 之 后 ， 再 接着 调用 MPI_. Beast(), 
后 者 会 将 值 广播 给 通信 子 中 的 所 有 进程 。 

返回 值 ， 
某 个 MPI 错 误 码 。 





代码 规范 7.8 MPI_Scatter() 
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MPI_Scatter() 
int MPI_Scatter( / /散射 例 程 

















void *sendbuffer, // 欲 发 送 数据 的 地 址 

int sendcount, / / 欲 发 送 数 据 元 素 的 数量 
MPI_Datatype sendtype, // 欲 发 送 数 据 元 素 的 类 型 
void *destbuffer, // 欲 接收 数据 的 地 址 
int destcount, / / 欲 接 收 数据 元 素 的 数量 
MPI Datatype desttype, // 和 欲 接收 数据 元 素 的 类 型 
int root, // 根 进程 的 序号 
MPI_Comm comm / /MPI 通 信子 






); 
参量 : 
* 前 3 个 参量 指定 了 要 发 送 给 各 进程 的 数据 元 素 的 地 址 、 数 量 和 类 型 ， 这 些 参量 只 
对 根 进 程 有 意义 。 
“ 随后 的 3 个 参量 指定 了 各 进程 所 要 接收 的 数据 元 素 的 地 址 、 数 量 和 类 型 . 发 送 数 据 
与 接收 数据 的 数量 和 类 型 之 间 可 能 会 有 所 不 同 ， 这 是 由 于 数据 类 型 转换 的 缘故 。 
“第 7 个 参量 指定 了 根 进程 ， 即 数据 源 。 
“第 8 个 参量 指定 了 所 使 用 的 MPI 通 信子 。 
注释 ; 
该 例 程 从 根 进程 分 发 数据 到 所 有 进程 ， 包 括 根 进程 本 身 。 一 个 更 为 复杂 的 版 本 是 
MPI_Scatterv0， 它 允许 根 进程 发 送 不 同 数量 的 数据 到 不 同 进程 。 具体 细节 见 MPI 标 准 。 
返回 值 ， 
某 个 MPI 错 误 码 。 


代码 规范 7.9 MPL Gather0) 


MPI_Gather() 
int MPI_Gather( 
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void *sendbuffer, // 欲 发 送 数 据 的 地 址 
int sendcount, SERERETERORE ， 
MPI_Datatype sendtype, // 答 发 送 数据 元 素 的 类 型 

void *recvbuffer, // 欲 接收 数据 的 地 址 
int recvcount, // 欲 接收 数据 元 素 的 数量 
MPI_Datatype recvtype, // 和 欲 接收 数据 元 素 的 类 型 
int root, // 根 进程 的 序号 
MPI_Comm comm //MPI 通 信子 






); 
SE. 
* 前 3 个 参量 指定 了 各 进程 所 要 发 送 的 数据 元 素 的 地 址 、 数量 和 类 型 。 

“随后 的 3 个 参量 指定 了 接收 进程 ( 即 根 进程 ) 所 要 接收 的 数据 元 素 的 地 址 、 数 量 
和 类 型 。 发 送 数据 与 接收 数据 的 数量 和 类 型 之 间 可 能 会 有 所 不 同 ， 这 是 由 于 数据 
类 型 转换 的 缘故 。 

“第 7 个 参量 指定 了 要 接收 数据 的 根 进程 ， 

“第 8 个 参量 指定 了 所 使 用 的 MPI 通 信子 。 








152 RERA HRP 


注释 : 
该 例 程 从 通信 子 中 所 有 进程 处 收集 数据 ， 然 后 放置 到 根 进程 中 。 一 个 更 为 复杂 的 版 
本 是 MPI_ Gatherv()， 它 允许 根 进程 从 不 同 进程 处 接收 9 不 同 数量 的 数据 。 具 体 细 


节 见 MPI 标 准 。 
返回 值 ， 
某 个 MPI 错 误 码 。 





7.1.2 组 和 通信 子 


在 MPI 中 ， 通 信子 (communicator) 是 一 个 范围 机 制 ， 它 定义 了 一 个 可 以 相互 间 通 信 的 进 
程 集 合 。 例 如 ， 为 了 将 库 例 程 的 消息 与 应 用 层 例 程 的 消息 区 分 开 来 ， 我 们 为 库 例 程 定义 了 单 
独 的 通信 子 。 

组 (group) 是 一 组 有 序 进程 的 集合 ， 它 可 用 来 定义 集合 通信 操作 。 组 中 的 每 个 进程 都 分 
配 了 唯一 序号 ， 即 ID ， 它 们 的 值 位 于 0 到 忆 -1 之 间 ， 含 P-1， 其 中 忆 是 组 中 的 进程 数 。 一 个 进 
程 可 以 隶属 于 多 个 组 。 例 如 ， 考 虑 在 一 个 程序 中 ， 我 们 可 以 将 所 有 进程 看 作 是 进程 的 一 个 2 维 
数组 。 在 此 种 计算 中 ， 一 个 进程 既 可 以 隶属 于 该 2 维 数组 进程 所 定义 的 行进 程 组 ， 也 可 以 隶属 
于 同一 2 维 数组 进程 所 定义 的 列 进程 组 。 通 过 定义 这 两 个 组 ， 一 个 进程 能 在 其 进程 行 或 进程 列 
之 间 散 射 数据 ， 或 在 这 些 组 中 执行 其 他 的 集合 通信 操作 。 

通信 子 和 组 都 能 动态 创建 和 销毁 ， 我 们 将 在 讨论 集合 通信 细节 时 给 出 使 用 它们 的 一 个 实 
例 。 有 许多 用 来 操作 组 和 通信 子 的 例 程 ， 具 体 细 节 请 参见 MPI 手 册 。 


7.1.3 点 对 点 通信 


在 MPI 中 ， 点 对 点 通信 通过 发 送 进程 和 接收 进程 这 两 者 元 余地 指定 。 消 息 的 匹配 基于 操作 
所 说 明 的 源 / 目 的 进程 ， 以 及 所 指定 的 消息 标记 (tag) 。 标 记 是 一 个 用 户 自 定 义 的 非 负 整数 ， 
它 能 用 来 从 逻辑 上 区 分 同一 对 进程 间 的 不 同 销 息 。 在 某 些 实例 中 ， 进程 可 能 无 法 预知 它 要 与 
哪些 进程 进行 通信 ， 此 时 它 可 以 指定 MPL_ANY 作 为 其 源 进程 或 目的 进程 。 

MPI 能 确保 同一 源 与 目的 地 进程 之 间 的 消息 是 顺序 传递 的 ， 但 当 通 信 所 涉及 的 进程 数 超过 
2 时 ， 就 无 法 保证 消息 的 顺序 性 。 

MPI 提 供 了 许多 点 对 点 通信 的 变 体 。 原因 在 于 必然 会 发 生 的 重要 同步 和 数据 拷贝 ， 如 
图 7-3 所 示 ， 对 于 每 个 消息 ， 数 据 必 须 在 四 个 地 址 空间 之 间 拷 贝 。 注意 这 个 图 只 关注 了 最 基 
本 的 数据 传输 操作 ， 它 忽略 了 特定 实现 的 细节 ， 那 可 能 需要 额外 的 缓冲 和 联络 
(handshaking) , 

为 了 人 允许 程序 员 隐 基部 分 时 延 ，MPI 提 供 了 给 出 部 分 细节 的 不 同 版 本 的 发 送 和 接收 操作 。 
例如 ， 非 阻塞 式 版 本 允许 一 个 进程 当 它 在 等 待 消息 传递 时 执行 其 他 一 些 独立 的 工作 。 这 种 通 
信和 与 计算 的 重 叙 很 类 似 于 我 们 在 第 6 章 中 曾 看 到 的 分 阶段 障 栅 ， 因此 它 能 以 增加 程序 复杂 性 为 
代价 提高 性 能 。 

我 们 现在 来 讨论 点 对 点 通信 操作 的 多 种 变 体 。 


O 原文 此 处 误 为 发 送 。 一 一 译 者 注 
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图 7-3 每 个 消息 在 四 个 地 址 空间 之 间 移 动 时 ， 必须 通过 拷贝 的 方式 ， 而 每 次 拷贝 都 会 对 整个 时 延 有 所 增加 


标准 发 送 和 接收 。 标 准 发 送 和 接收 是 阻塞 式 的 ， 即 在 传输 没有 本 地 完成 前 ， 它 们 是 不 全 
至 同 的 。 如 果 消 息 传输 在 本 地 进程 中 所 需 执行 的 传输 部 分 已 经 完成 ， 就 称 为 是 本 地 完成 ， 如 
采 消 息 的 整个 传输 都 已 完成 ， 则 称 为 是 全 局 完成 。 因 此 ， 一 旦 MPI_Send0 返 回 ， 发 送 进程 改 
写 缓 冲 区 就 是 安全 的 。 同 理 ， 一 旦 MPI_Recv0O 返 回 ， 接收 进程 使 用 缓冲 区 中 的 值 就 是 安全 的 。 

非 阻塞 式 通 信 。 为 了 隐 茂 通信 时 延 ， 通 常会 重 估 通信 和 计算 ， 因 此 MPI 提 供 了 非 阻塞 式 通 
信 。MPI_Isend0O 和 MPI_Irecv0) 就 是 标准 发 送 和 接收 的 非 阻塞 式 版 本 。 它 们 在 操作 本 地 完成 之 
前 ， 就 立即 返回 。( 此 处 I 是 immediate (立即 ) 模式 的 缩写 ) 。 

使 用 MPI_IsendO， 发 送 进程 并 不 知道 缓冲 区 中 的 数据 何 时 会 被 真正 地 传输 到 接收 进程 
司 此 除非 有 某 种 提示 表明 消息 传输 已 经 完成 ， 否 则 改写 缓冲 区 将 是 不 安全 的 。 为 了 等 待 非 了 
讲 式 操作 完成 ， 进 程 可 以 调用 MPL_ Wait() 例 程 ， 它 能 阻塞 进程 ， 直 至 指定 操作 已 全局 完成 
为 了 测试 一 个 非 阻塞 式 操作 是 否 已 完成 ，MPI_Test() 例 程 能 立即 返回 ， 并 依据 消息 传输 完成 的 
状态 ， 通 过 将 第 2 个 参数 值 设置 为 真 或 伪 加 以 表示 。 

类 似 地 ， 对 于 MPI_Irecv()， 直 到 操作 全 局 完成 ， 缓 冲 区 中 的 数据 都 是 无 效 的 ， 因 此 
MEI-Wait0 和 MPI_TestO 对 于 接收 进程 而 言 也 是 很 有 用 的 操作 。 

其 他 通信 模式 。 除 了 标准 发 送 操作 ，MPI 还 提供 了 相关 语义 的 其 他 三 种 模式 。 每 种 模式 的 
符 委 可 以 是 阻塞 式 的 或 是 非 阻 鹿 式 的 ， 同 时 任意 的 发 送 例 程 都 可 以 与 任意 的 接收 例 程 相 匹 本 

PRR, BAK (MPI_SsendO 和 MPL IssendO) 在 语言 中 提供 了 类 似 于 Ada 语 计 

集结 点 (rendezvous) 的 语义 ， 即 直到 接收 进程 开始 接收 消息 ， 发 送 进程 才 会 返回 

AMR, MRE (MPI_BsendO 和 MPI_IbsendO) 允许 程序 员 为 消息 申请 缓冲 区 上 

加 ， 这 能 使 程序 避免 由 于 系统 缓冲 区 空间 不 足 而 引起 的 任何 问题 。 与 MPI 实 现 相关 ， 访 

模式 对 于 需要 用 大 容量 存储 器 来 缓 促 消息、 或 是 任意 时 间 均 有 特别 大 量 消息 在 传输 的 各 

序 特别 适用 。 对 于 这 些 例 程 ， MPI_Buffer_attach() 和 MPI_Buffer_detach() 例 程 可 用 来 指 

定 已 分 配 的 存储 器 。 

“ 就绪 发 送 。 为 了 在 众多 并 行 计算 机 上 提高 性 能 ，MPI_Rsend0O 和 MPI_Irsend0 例 程 多 许 将 

消息 直接 放置 到 存储 器 单元 ， 以 避免 联络 和 缓冲 的 开销 。 为 了 使 用 这 种 例 程 ， 程 序 员 必 

项 保证 接收 操作 在 消息 到 达 之 前 就 已 经 启动 。 如 果 违反 了 此 种 定时 假设 ， 则 在 执行 接收 

操作 时 将 标志 一 个 错误 。 当 然 ， 由 于 这 种 额外 的 假设 ， 这 种 模式 极 易 出 错 ， 

所 绑 这 些 发 送 和 接收 的 更 复杂 版 本 能 提高 性 能 ， 但 它们 会 妨碍 性 能 可 移植 性 ， 当 机 器 特性 


154 RERA ARP RHET 
发 生变 化 时 ， 对 不 同 版 本 的 选择 也 会 发 生变 化 。 况 且 使 用 这 些 例 程 会 显著 复杂 化 程序 的 文本 。 


7.1.4 集合 通信 


集合 通信 操作 是 涉及 到 多 个 进程 的 高 旺 通 信 操 作 。 除 了 我 们 之 前 在 统计 3 的 个 数 程 序 实例 
中 看 到 的 散射 (scatter) 和 归 约 (reduce) PFE, 还 有 扫描 (scan) 例 程 ， 广播 (broadcast) 
例 程 ， 障 栅 (barrier) 例 程 ， 以 及 将 分 布 式 的 数据 收集 到 单个 进程 的 聚集 (gather) 例 程 。 这 
些 例 程 的 接口 可 参见 代码 规范 7.7 一 7.12。 

我 们 之 前 所 举 的 例子 将 集合 通信 操作 应 用 到 所 有 进程 。 我 们 现在 介绍 一 个 例子 来 说 明 如 
何 设置 多 个 组 ， 而 每 个 组 对 应 于 2 维 数组 进程 的 每 一 行 。 设 置 好 这 些 组 后 ， 我 们 将 展示 如 何在 
各 处 理 器 行 间 广 播 不 同 的 值 。 

图 7-4 显 示 了 设置 这 些 组 的 代码 。 假 设 全 局 整数 numCols 能 保存 进程 的 列 数 。 为 简短 起 见 ， 
我 们 采用 了 C 语 言 的 一 些 特 性 从 而 能 静态 初始 化 一 个 动态 分 配 的 数组 。 


int numCols; /* 已 在 别处 初始 化 */ 


.void broadcast_example() 


int **ranks; /* 属于 每 个 组 的 序号 */ 
int myRank; 

int rowNumber; /* 该 进程 的 行 号 */ 
int random; /* 欲 广播 的 值 */ 
rowNumber=myRank/numCols; 

MPI Group globalGroup, newGroup; 

MPI Comm rowComm[numCols]; 


/* 初始 化 rank[][] 数 组 */ 
ranks[0]={0,1,2,3}; /* 非 合 法 的 C 语 言 */ 
ranks[1]={4,5,6,7}; 
ranks[(2]={8,9,10,11}; 
ranks[{3)={12,13,14,15}; 


/* 抽取 出 原先 组 的 句柄 */ 
MPI_Comm group{({MPI COMM WORLD, &globalGroup); 


/* 定义 新 组 */ 
MPI_Group_incl(globalGroup, P/numCols, ranks{rowNumber], &newGroup); 


/* 创建 新 通信 子 */ 
MPI Comm create(MPI COMM WORLD, newGroup, &newComm); 


random=rand(); 


/* 在 行 间 广播 随机 数 'random' */ 


MPI_ Bcast(grandom, 1, MPI_,INTrowNumber*numCols, newComm); 





图 7-4 组 内 集合 通信 示例 


在 第 20 行 ，MPI_Comm_group() 例 程 (参见 代码 规范 7.14) 返回 一 个 与 现 有 
MPI_COMM_WORLD 通 信子 相关 的 组 句柄 。 然 后 我 们 使 用 MPI_Group_incl0 例 程 定义 一 个 新 
H: 第 1 个 参数 从 globalGroup 中 选择 了 组 的 集合 ， 用 ranks[][] 数 组 来 指定 ， 其 中 新 组 的 大 小 是 
P/numCols, 名 称 为 newGroup (参见 代码 规范 7.15)。 
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在 第 26 行 ，MPI_Comm_create() 例 程 为 新 组 创建 了 新 通信 子 ， 它 能 被 传递 给 第 31 行 的 
MPI_BcastO (参见 代码 规范 7.16)。 在 此 种 情况 下 ， 广 播 将 从 一 行 中 最 左边 的 进程 向 同一 行 中 
的 所 有 进程 发 送 随 机 生成 的 一 个 整数 。 

这 个 例子 手动 创建 了 2 维 数组 的 进程 组 。 其 实 MPI 已 经 提供 了 虚拟 拓扑 的 概念 ， 并 允许 定 
义 和 重 用 这 种 拓扑 。 尤 其 是 ，MPI 定 义 了 笛 卡 尔 (Cartesian) 网 格 和 图 像 拓扑 。 对 这 个 高 深 主 
题 感 兴趣 的 读者 可 以 参考 MPI 手 册 。 

代码 规范 7.10 MPI_Scan() 

MPI_Scan() 

int MPI_Scan( // 扫描 例 程 

void *sendbuffer, // 欲 发 送 数 据 的 地 址 
void *recvbuffer, // 欲 接收 数据 的 地 址 
int count, // 欲 接收 数据 元 素 的 数量 


MPI_Datatype datatype, // 欲 接收 数据 元 素 的 类 型 
MPI_OP op, / [MPIRE 


MPI_Comm comm //MPI 通 信子 
); 
注释 : 
该 例 程 具有 与 归 约 操作 几乎 相同 的 接口 ， 只 是 不 需要 根 进程 而 已 。 
返回 值 . 
某 个 MPI 错 误 码 。 


代码 规范 7.11 MPI_BcastO。 用 来 从 一 个 根 进程 广播 数据 到 通信 子 中 所 有 其 他 进程 的 
MPI 例 程 













MPI_Bcast() 
int MPI_Bcast( 





// 广 播 例 程 












void *buffer, // 和 欲 发 送 数据 的 地 址 

int count, // 欲 发 送 数据 元 素 的 数量 
MPI_Datatype datatype, // 欲 发 送 数 据 元 素 的 类 型 
int root, // 根 进程 的 序号 
MPI_Comm comm //MPI 通 信子 







i 
参量 : 
* 前 3 个 参量 指定 了 和 欲 发 送 给 各 进程 的 数据 元 素 的 地 址 、 数 量 和 类 型 。 
"第 4 个 参量 指定 了 根 进程 或 发 送 进程 的 序号 。 
“第 5 个 参量 指定 了 所 使 用 的 通信 子 。 
注释 : 
该 例 程 用 来 从 根 进程 广播 数据 到 通信 子 中 所 有 其 他 的 进程 。 5MPI_Scatter()#l 
MRPIL_Gather0 不 同 ,，. 根 进程 与 接收 进程 之 间 的 元 素数 量 和 类 型 必须 保持 一 致 
返回 值 ; 
某 个 MPI 错 误 码 。 
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代码 规范 7.12 MPI_Barrier() 


MPI_Barrier() 
int MPI_Barrier( // 障 栅 例 程 
MPI_Comm / /MPI 通 信子 


); 
人 参量 : 
。 该 参量 指定 了 所 使 用 的 通信 子 。 
该 例 程 将 阻塞 进程 ， 直 到 通信 子 中 所 有 进程 都 到 达 该 点 。 
返回 值 : 

某 个 MPI 错 误 码 。 


代码 规范 7.13 MPI_Wtime() 





MPI_Wtime() 
double MPI Wtime( // 定 时 例 程 
); 
注释 ; 
该 例 程 返回 用 秒表 示 的 当前 时 间 。 
返回 值 
某 个 MPI 错 误 码 。 


代码 规范 7.14 MPI_Comm_group() 





MPI_Comm group() 
int MPI Comm group 
MPI_Comm / /MPI 通 信子 
MPI_Group / /与 通信 子 相关 的 组 
) ; 
注释 : 
返回 与 通信 子 相关 的 组 的 句柄 。 
返回 值 : 
某 个 MPI 错 误 码 。 


代码 规范 7.15 MPI_Group_incl() 





MPI_Group_incl() 

int MPI_Group_incl( 

MPI_Group group // 现 有 的 组 
int size, // 新 组 的 大 小 
int *rank // 欲 包括 的 进程 的 序号 
MPI_Group *newGroup // 欲 创建 的 新 组 

); 


TR: 
通过 从 现 有 的 组 中 选 出 进程 ， 以 创建 新 组 。 


返回 值 : 
某 个 MPI 错 误 码 。 





7È MPl~PAKABRASS 157 


代码 规范 7.16 MPI_Comm _create() 


MPI_Comm_create() 

int MPI_Comm_create( 
MPI_Comm origComm // 现 有 的 通信 子 
MPI_Group newgroup // 新 组 
MPI_Comm *newComm // 新 建 的 通信 子 

) 7 


注释 : 

为 指定 的 组 创建 一 个 新 通信 子 。 
返回 值 ; 

某 个 MPI 错 误 码 。 





7.1.5 举例 ， 连续 过 度 松弛 


为 了 获得 使 用 MPI 实 现 并 行程 序 的 经 验 ， 考 虑 创建 2 维 连续 过 度 松弛 (Successive over- 
relaxation, SOR) 程序 。 

问题 说 明 。SOR 经 常用 来 求解 微分 方程 组 ， 例 如 用 来 计算 液体 流 的 Navier-Stokes 方 程 。 
我 们 的 计算 从 有 个 值 的 二 维 数组 开始 。 在 每 次 迭代 中 ， 计 算 将 数组 的 每 个 值 替换 为 周围 4 个 
最 近邻 居 的 平均 值 。 那 些 在 数组 边界 上 的 值 将 使 用 预先 确定 的 常数 值 ， 称 为 边界 值 ， 作 为 它 
们 所 缺失 的 邻居 值 。 我 们 假定 左边 界 的 边界 值 都 为 1， 其 余 的 边界 值 都 为 0， 而 二 维 数组 内 的 
每 个 值 均 初始 化 为 0。 

处 理 边 界 值 最 简单 的 方法 是 将 它们 分 配 到 二 维 数组 中 ， 并 用 它们 的 常数 值 初始 化 ， 得 到 
如 图 7-5 中 所 示 的 情况 。 


图 7-5 二 维 松弛 (ERR) 将 所 有 内 部 值 替换 为 其 周围 4 个 最 近邻 居 的 平均 值 


MPI 解 决 方案 。 所 需求 解 的 问题 是 在 二 维 数组 上 定义 的 ， 由 于 每 次 迭代 中 每 个 数组 元 素 所 
需 的 计算 量 是 固定 的 ， 因 此 该 计算 是 规则 且 平 衡 的 。 所 以 静态 分 配 这 项 工作 是 有 可 能 的 ， 即 
每 个 进程 将 分 配 到 大 约 1/P 个 数组 元 素 。 由 于 每 个 数组 元 素 的 值 依赖 于 它 周 围 4 个 最 近 的 邻居 ， 
因此 块 分 配 比 循环 分 配 或 块 一 循环 分 配 的 局 部 性 都 要 好 。 尤 其 是 ， 我 们 选择 了 二 维 块 分 配 ， 
因为 与 1 维 块 分 配 相 比 ， 它 能 最 小 化 通信 和 总 量 。 

图 7-6 显 示 了 二 维 SOR 解 决 方案 的 主 循 环 部 分 。 这 段 代码 假设 我 们 使 用 了 Rows x Cols 个 进 
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程 ， 且 每 个 进程 拥有 Height x Width 个 数据 ， 这 当中 包括 了 用 来 保持 重合 区 域 的 额外 行 和 列 。 
“使 用 这 些 重 要 区 域 将 允许 计算 的 主 循环 部 分 正常 处 理 ， 而 无 需 性 虑 非 本 地 值 的 特殊 情况 。 此 
处 我 们 只 是 简单 假设 它们 的 值 早 已 被 通信 操作 正确 地 设置 了 。 在 每 次 和 迭代 中 ， 代 码 从 val 数 组 
处 读 取 ， 然 后 写 回 到 new 数 组 中 。 在 每 次 迭代 的 最 后 ， 交 换 这 两 个 数组 的 指针 ， 以 便 为 下 次 过 
代 做 好 准备 。 注 意 ， 发 送 数据 到 东边 邻居 和 西边 邻居 时 ， 数 组 列 会 先 复制 到 一 段 连续 的 缓冲 


Ro HEF RHEE 


A RPM Oe OO 


区 中 ， 然 后 作为 单个 消息 发 送 。 


”OOOO 


Pe 
Qe 
H. 


#define Top 0 
#define Left 0 
#define Right (Cols-1) 
define Bottom (Rows-1) 


#define NorthPE(i) ((i)-Cols) 
#define SouthPE(i) ((i)+Cols) 
#define EastPE(i) ((i)+1) 
#define WestPE(i) ((i)-1) 


{ /* 
* 发 送 数据 到 周围 4 个 邻居 


*/ 
if(row !=Top) /* 发 送 到 北边 邻居 


MPI_Send(&val{1](1], Width-2, MPI_FLOAT, 
NorthPE(myID), tag, MPI_COMM_WORLD); 


} 
if(col !=Right) /* 发 送 到 东边 邻居 
{ 


for(i=l; i<Height-1; i++) 
buffer[i-1]=val[i][Width-2]; 


} 
MPI_Send(buffer, Height-2, MPI_FLOAT, 
EastPE(myID), tag, MPI_COMM_WORLD); 


} 


if(row !=Bottom) /* 发 送 到 南边 邻居 


{ 
MPI_Send(&val(Height-2][1], Width-2, MPI_FLOAT, 
SouthPE(myID), tag, MPI_COMM_WORLD); 


} 


if(col !=Left) /* 发 送 到 西边 邻居 
{ 
for(i=1; i<Height-1l; i++) 
{ 
buffer[i-1]=val[iJ{1]; 


} 
MPI_Send(buffer, Height-2, MPI_FLOAT, 
WestPE(myID), tag, MPI_COMM WORLD); 
} 


/* 
* j 接收 消息 


if(row !=Top) /* 从 北边 邻居 处 接收 */ 
图 7-6 二 维 SOR 计 算 中 主 循环 部 分 的 MPI 代 码 





#7# MPIRA RMA 159 
SRA PE O59 oO 








{ 
142 MPI_Recv(&val[0][1], Width-2, MPI_FLOAT, 
143 NorthPE(myID), tag, MPI COMM WORLD, &status); 


144 } 
if(col !=Right) /* 从 东边 邻居 处 接收 */ 















147 { 
148 MPI_Recv(sbuffer, Height-2, MPI FLOAT, 

149 EastPE(myID), tag, MPI_COMM WORLD, &status); 
150 for(i=1l; i<Height-1; i++) 

151 { 

152 val[i](Width-1]=buffer[i-1]; 

153 } 


} 
if(row !=Bottom) /* 从 南边 邻居 处 接收 */ 












157 { 
158 MPI_Recv(&val[Height-1][1], Width-2, MPI_FLOAT, 
159 SouthPE(myID), tag, MPI_COMM WORLD, &status); 





160 } 










if(col !=Left) /* 从 西边 邻居 处 接收 */ 
163 { 









164 MPI_Recv(&buffer, Height-2, MPI_FLOAT, 

165 WestPE(myID), tag, MPI_COMM WORLD, &status); 
166 for(i=1; i<Height-1; i++) 

167 { 

168 val[i}(0]=buffer[i-1]; 

169 } 






} 
delta=0.0; /* 计算 所 有 点 的 平均 值 和 delta */ 


for(i=1l; i<Height-1; i++) 










174 { 
175 for(j=1; j<Width-1; j++) 
176 { 
177 average=(val[i-1][j]+val(i]{j+lj+ 
178 val({itl}(j]+val[ij{[j-1l])/4; 
. 179 delta=Max(delta, Abs (average-val[(i][{j])); 
180 new[i][j]=average; 
181 } 






} 


/* 找 出 最 大 的 差 值 */ 
185 MPI_Reduce(&delta, &globalDelta, 1, MPI_FLOAT, MPI_MAX, 
186 RootProcess, MPI_COMM WORLD) ; 

187 Swap(val, new); 

} while(globalDelta >= THRESHOLD); 









图 7-6 《 续 ) 


7.1.6 性 能 问题 


且 不 管 底层 硬件 通信 基础 设施 的 时 延 ， MPI 消 息 本 身 在 每 个 消息 发 送 时 就 产生 了 很 大 的 开 
销 。 因 此 我 们 通常 希望 减少 消息 发 送 的 数量 ， 通 过 (1) 选择 那些 极 少 产生 跨 进程 相关 性 的 算 
法 (2) 将 多 个 消息 合并 成 单个 大 消息 。 

二 维 SOR 解 决 方案 (图 7-6) 第 113-116 行 中 可 以 看 到 使 用 第 2 种 方法 的 例子 。 我 们 将 本 地 


1600 RERA HHP RES 


数组 沿 右 边 一 列 的 值 拷贝 到 一 个 称 为 buffer 的 数组 中 。 和 希望 发 送 任意 长 度 链表 (linked list) 的 
元 素 时 ， 情 况 将 会 变 得 更 加 复杂 。 这 里 有 一 些 细节 需要 解决 ， 即 如 何在 只 有 发 送 者 知道 长 度 
的 情况 下 ， 让 发 送 者 和 接收 者 对 消息 长 度 达成 共识 ? 一 种 解决 方案 是 使 用 一 个 协议 ， 让 发 送 
者 先 发 送 长 度 给 接收 者 ， 但 这 样 就 加 倍 了 消息 数 。 另 一 种 解决 方案 是 将 消息 分 解 为 一 些 固定 
大 小 的 大 字 节 块 ， 并 在 消息 中 加 入 提示 ， 是 否 会 有 更 多 的 数据 需要 发 送 。 第 二 种 方案 的 缺点 
在 于 短 消 息 将 被 扩展 到 比 其 更 大 的 固定 大 小 ， 因 而 会 浪费 缓冲 区 的 空间 。 

消息 巨大 的 开销 以 及 MPI 进 程 固定 的 集合 ， 都 表明 了 MPI 程 序 内 在 的 静态 性 。 但 正如 图 7- 
7 所 示 ，MPI 古 能 够 执行 动态 工作 分 配 的 。 图 中 显示 了 一 组 4 个 进程 ， 在 周期 地 交换 有 关 各 进 
程 负 载 状 态 的 信息 ， 并 使 用 该 信息 在 本 地 计算 出 下 次 迭代 所 期 望 的 工作 分 配 ， 传 送 相应 的 工 
作 (也 许 是 接收 工作 ) ， 然 后 继续 计算 。 当 然 关 键 在 于 ， 只 有 当 这 种 工作 分 配 的 计算 只 占 所 有 
计算 的 一 小 部 分 ， 且 它 所 改进 的 负载 平衡 得 益 大 于 这 个 昂贵 的 工作 再 分 配 协议 所 付出 的 代价 
时 ， 这 种 方案 才 是 可 行 的 。 


PO Pi P2 P3 




























时 间 
交换 负载 信息 
做 出 负载 安排 决定 
传送 工作 负载 
继续 测试 


图 7-7 MPI 中 动态 工作 再 分 配 的 图 示 


重 冯 通信 和 计算 。 由 于 每 个 消息 巨大 的 启动 开销 ， 因 此 重生 通信 和 计算 通常 是 很 有 用 的 。 作 
为 一 个 具体 实例 说 明 如 何 通过 使 用 非 阻塞 式 通信 来 实现 这 种 优化 ， 图 7-8 显 示 了 我 们 应 怎样 修改 
图 7-6 的 2 维 SOR 程 序 以 隐藏 通信 的 时 延 。 在 代码 中 看 到 了 一 些 主要 的 差异 。 首 先 ， 我 们 使 用 
MPL_Isend0 和 MPIL_ Iecv0 替 换 了 原先 的 阻塞 式 版 本 。 其 次 ， 当 这 些 通 信 在 执行 时 ， 我 们 对 所 有 完 
全 能 在 本 地 计算 的 数组 中 的 值 进行 连续 过 度 松弛 计算 , 即 所 有 无 需 访问 任何 非 本 地 数组 值 的 计算 。 
因此 第 173 ~182 行 中 嵌 套 的 for 循 环 并 不 迭代 本 地 数组 的 边界 ， 这 是 由 于 边界 值 依赖 于 邻居 进程 上 
的 值 。 同 时 还 在 第 183 行 增加 了 MPL Waitall0 (参见 代码 规范 7.17) 的 调用 ， 它 将 一 直 阻 塞 ， 直 至 
所 有 8 个 非 阻塞 式 调 用 完成 。 那 时 ， 我 们 将 能 完成 余下 边界 点 的 计算 (第 185 ~ 215 行 ) 。 

正如 我 们 所 看 到 的 ， 重 又 通 信和 计算 的 主要 代价 在 于 将 平均 值 的 局 部 计算 一 分 为 二 ， 一 
部 分 能 无 关于 通信 独立 执行 ， 而 另 一 部 分 则 要 依赖 于 通信 的 结果 。 这 使 得 计算 的 整个 逻辑 变 
得 蜂 涩 难 懂 ， 同 时 也 明显 增加 了 代码 的 长 度 。 
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/* 
103 * 发 送 数据 到 周围 4 个 邻居 
104 */ 
if(row!=Top) /* 发 送 到 北边 邻居 */ 

106 { 

107 MPI_TIsend(&val[{1][1], Width-2, MPI _FLOAT, 

108 NorthPE(myID), tag, MPI __COMM WORLD, &requests[0]);: 


109 } 


if(col!=Right) /* 发 送 到 东边 邻居 */ 

























112 { 

113 for(i=1; i<Height-1; i++) 

114 { 

115 buffer[i-~1]=val[i)}(width-2); 

116 } 

117 MPI_Isend(buffer, Height-2, MPI _FLOAT, 

118 EastPE(myID), tag, MPI COMM | WORLD, &requests[1]); 








119 } 


if (row!=Bottom) /* 发 送 到 南边 邻居 */ 

{ 

123 MPI_Isend(&val[{Weight-2][1], Width- 2, MPI_FLOAT, 

124 SouthPE(myID), tag, MPI __COMM | WORLD, &requests[(2]); 
125 } 


if (col!=Left) /* 发 送 到 西边 邻居 */ 



























{ 
129 for(i=1l; i<Height-1; i++) 
130 { 
131 buffer[i-l]=val[ij[1]; 
132 } 
133 MPI_Isend(buffer, Height-2, MPI _FLOAT, 
134 WestPE(myID), tag, MPI _COMM WORLD, &requests[3}); 


} 





/* 









138 * 接收 消息 

139 */ 

140 if(row!=Top) /* 从 北边 邻居 处 接收 */ 

141 { 

142 MPI_TIrecv(&val[0J{1], Width-2, MPI __FLOAT, 

143 NorthPE(myID), tag, MPI_COMM | WORLD, &requests[4]); 





} 


if(col!=Right) /* 从 东边 领 居 处 接收 */ 
{ 











148 MPI_Irecv(&buffer, Height~2, MPI __FLOAT, 

149 EastPE(myID), tag, MPI __COMM WORLD, &requests[5]); 
150 for(i=1; i<Height-1; i++) 

151 { 

152 val[i][Width-1]=buffer{[i-1]; 

153 } 







} 





if(row!=Bottom) /* 从 南边 邻居 处 接收 */ 
{ 










MPI_Irecv(&val[Height- -1][1], Width- 2, MPI _FLOAT, 
SouthPE(myID), tag, MPI COMM WORLD, &requests[6]); 


图 7-8 使 用 非 阻塞 式 发 送 和 接收 的 2 维 SOR 的 MPI 程 序 
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} 


if(col!=Left) . /* AALE */ 
{ 
MPI_Irecv(&buffer, Height-2, MPI FLOAT, 
WestPE(myID), tag, MPI_COMM WORLD, &requests[7]); 
for(i=1; i<Height-1; i++) 
{ 
val[(i]{0)=buffer[i-1]; 
} 
} 


delta=0.0; /* 计算 所 有 点 的 平均 值 和 delta */ 
for(i=2; i<Height-2; i++) 
{ 
for(j=2; j<Width-2; j++) 
{ 
average=(val[i-1l][(j]Jt+tval[i}[j+1]+ 
val[i+1][{j}+val[i][j-1])/4; 
delta=Max(delta, Abs(average - val[i][ij])); 
new[i][jj=average; 
} 


} 
MPI_Waitall(8, requests, status); 


/* 更 新 顶部 和 底部 的 边界 包括 各 个 角 */ 

for(j=1; j<Width-1; j++) 

{ 
i=l; 
average=(val[i-l][{j]+val[iJ[j+1]+ 

valfitl][j]+val{i][j-1])/4; 

delta=Max(delta, Abs(average-val[iJ[j])); 
new[i][j]=average; 


i=Height-2; 
average=(val(i-1]{jJ)tval[iJ[j+1lj+ 
val{itl}[j)+val(ij[j-1])/4; 
delta=Max(delta, Abs(average-val{i][j])); 
new{i][j]=average; 
} 


/* 更 新 左边 和 右边 的 边界 不 包括 各 个 角 */ 

for(i=2; i<Height-2; i++) 

{ 
j=1; 
average=(val[i-1](j]+wal[iJ][j+1]+ 

val(itl1}[j]+val[i}[j-1])/4; 

delta=Max(delta, Abs(average - val[i]{j1)); 
new(i][j]=average; 


j=Width-2; 
average=(val[i-1][j)tval[i)[j+1]+ 

val[it+tl][(j]+val[i][j-11)/4; 
delta=Max(delta, Abs(average-val{i](j])); 
new[i}[{j]=average; 


} 
/* 找 出 最 大 的 差 值 */ 
MPI _ Reduce(&delta, &globalDelta, 1, MPI_FLOAT, MPI_ MAX, 
RootProcess, MPI COMM WORLD) ; 
Swap(val, new); 
} while(globalDelta >= THRESHOLD); 





图 7-8 (4) 
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代码 规范 7.17 MPI_Waitall0 


MPI_Waitall() 


int MPI Waitall( / /等待 例 程 
int count, // 欲 等 待 的 全 部 进程 数 
MPI Request *requests, // 欲 等 待 的 请 求 数组 
MPI_Status *status, // 状 态 值 的 数组 

); 

注释 ; 


“在 所 有 计数 (count) 操作 完成 之 前 ， 该 例 程 将 一 直 阻塞 。 第 2 个 和 第 3 个 参量 必须 
有 各 自 的 计数 器 人 口 ，status 数 组 中 每 个 人 口 都 会 收 到 来 自 request 数 组 中 对 应 人 口 
的 返回 状态 。 . 
。 有 许多 等 待 调用 的 变 体 。 例 如 MPI_Wait(O) 将 等 待 某 一 个 请 求 ，MPI_Waitany0 将 等 
待 任 意 一 个 未 完成 请 求 的 完成 ，MPI_Waitsome0) 将 等 待 未 完成 请 求 列表 中 任意 一 
些 请 求 的 完成 。 

IR EME: 


某 个 MPI 错 误 码 。 

派生 数据 类 型 。 将 数据 编组 (marshaling) 到 连续 缓冲 区 不 一 定 都 像 2 维 SOR 程 序 中 那 般 
直截了当 。 例 如 ， 数 据 可 能 由 异 构 类 型 组 成 。 对 于 这 些 情况 ，MPI 提 供 了 派生 数据 类 型 
(derived data type) 的 概念 ， 以 允许 程序 员 从 非 连 续 的 缓冲 区 、 或 是 从 包含 异 构 类 型 的 缓冲 区 
中 传输 数据 。 

方法 是 动态 注册 一 个 新 数据 类 型 ， 它 需要 我 们 告知 MPI 运 行 时 (runtime) 系统 派生 类 型 
中 各 个 组 件 的 类 型 、 大 小 和 偏 移 。 我 们 能 使 用 MPI_Type_Struct0) 定 义 这 个 新 数据 类 型 ， 然 后 
使 用 MPI_Type_commitO) 向 系统 注册 这 个 类 型 。 由 于 MPL Type_commitO 将 创建 新 的 运行 时 结 
构 ， 因 此 调用 MPI_Type_free0) 注 销 派生 数据 类 型 以 避免 内 存 港 漏 (memory leak) 将 是 一 个 良 
好 的 程序 设计 习惯 。 

例如 ， 假 设 我 们 希望 广播 Person， 这 是 一 个 由 某 人 姓名 和 年 龄 组 成 的 数据 结构 。 图 7-9 显 示 
了 Person 结 构 的 实例 如 何 广播 到 系统 中 其 他 的 进程 。 具体 地 ， 在 我 们 的 BuildPersonType0) 函 数 中 ， 
第 14-15 行 定义 了 该 派生 数据 类 型 每 个 字段 的 类 型 ， 而 第 16~ 17 行 定义 了 每 个 字段 中 的 变量 数 。 

随后 获得 了 每 个 字段 的 地 址 ， 从 而 能 计算 它们 的 偏 移 。 最 后 调用 MPI_Type_Struct0 告 知 
MPI 运 行 时 系统 有 这 个 新 数据 类 型 ， 并 调用 MPI_Type_commit0 注 册 读 数据 类 型 。 

给 出 定义 派生 数据 类 型 的 过 程 后 ， 就 能 按 如 下 所 示 的 方式 对 它 进行 调用 ， 然 后 将 得 到 的 
UR AE EY Ey Be Bie (88 28 MPI_Beast(); 


Person* p=malloc(sizeof(Person) ); 

p->age=44; 

strcpy(p->name, "Nelson"); 

BuildPersonType(p, &newType); 

MPI_Beast(p, count, newType, RootProcess, 
MPI_ COMM WORLD); 








性 能 测评 (profiling)。Vampir 是 一 个 专门 针对 MPI 程 序 进行 性 能 分 析 的 知名 商业 软件 。 
它 是 在 欧洲 开发 的 ， 能 提供 显示 每 个 进程 以 及 聚合 行为 的 图 形 化 报告 。 
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1 struct Person 


2 1 
3 int age; 
4 char[6] name; 
5 } 
6 
7 void buildPersonType(Person* Pp, MPI_Datatype* newType) 
8 { 
MPI Datatype types[2]; /* 每 个 字段 的 类 型 */ 
10 MPI Aint offsets[2]; /* 每 个 字段 的 偏 移 */ 
11 MPI Aint addresses[3]; /* 每 个 字段 的 地 址 */ 
12 int block lengths[2]; /* 每 个 字段 的 长 度 */ 
13 
14 types[0]=MPI_INT; 
15 types[1]=MPI_CHAR; 
16 block_lengths[0]=1; 
17 block_lengths[1]=6; 
18 
19 /* 以 可 移植 的 方式 获得 每 个 字段 的 地 址 */ 
20 MPI_Address(p, &addresses[0] 7 
21 MPI_Address(&(p->age), &addresses[(1]); 
22 MPI_Address(&(p->name), &Saddresses[2]); 
23 
24 /* 计算 每 个 字段 的 偏 移 */ 
25 offsets[0]=addresses[ 1]-addresses[0]; 
26 offsets[ 1J=addresses|[ 2]-addresses[0]; 
27 
28 /* 定义 和 注册 新 类 型 */ 
29 MPI_Type_struct(2, block_lengths, offsets, types, newType); 
30 MPI_Type_commit(newType); 








31 } 


图 7-9 创建 派生 数据 类 型 


性 能 分 析 工 具 。 许 多 年 来 ， 已 经 研发 了 一 些 针对 MPI 的 调试 和 性 能 分 析 工 具 。 这 些 工具 的 
清单 可 在 以 下 网 站 上 获得 ， http://www-unix.mcs.anl.gov/mpi/tools.html, 


7.1.7 安全 性 问题 


MPI 中 没有 共享 数据 ， 因 此 也 就 没有 必要 与 Pthreads 一 样 提供 显 式 的 互 斥 。 无 论 如 何 ， 编 
号 MTI 程 序 是 很 困难 的 ， 因 为 有 如 此 多 的 底层 细节 有 待 程序 员 来 处 理 。 例 如 ， 程 序 员 必须 在 
发 送 进程 和 接收 进程 双方 都 元 余地 指定 消息 ， 因 此 程序 员 必须 确保 发 送 和 接收 能 合适 地 匹配 ， 
这 包括 了 消息 的 顺序 ， 以 及 消息 长 度 、 类 型 和 标记 这 些 细节 。 而 且 消 息 的 一 些 更 高 效 变 体 ， 
例如 非 阻塞 式 或 非 缓冲 的 消息 通常 极为 难 用 。 它 们 加 入 了 许多 关于 定时 和 消息 缓冲 的 额外 假 
设 ， 而 这 些 假设 必须 由 程序 员 加 以 实施 。 当 然 此 处 仍 要 处 理 死 锁 和 活 锁 的 问题 ， 

消息 传递 总 结 。 由 于 MPI 提 供 了 一 组 几乎 能 为 任意 并 行 计算 机 所 支持 的 基础 设施 ， 所 以 虽然 
它 迫使 程序 员 处 理 诸多 的 细节 ,而 且 只 提供 了 静态 进程 模型 ,但 它 仍 得 到 了 广泛 采用 。 确切 地 说 ， 
MET2 标 准 的 新 特性 中 支持 了 动态 进程 创建 。 但 在 制订 标准 的 许多 年 后 ， 仍 然 极 少 有 它 的 实现 出 
现 。 实 现 和 采用 它 的 主要 障碍 在 于 有 大 量 的 函数 (超过 500 个 ) 以 及 运行 时 系统 更 多 的 介入 


72 分 区 的 全 局 地 址 空间 语言 
分 布 式 存储 器 程序 设计 通常 会 与 消息 传递 划 上 等 号 。 但 正如 我 们 在 第 2 章 中 曾 提 到 的 ， 在 


ETÈ MPI 和 其 他 局 部 视图 后 富 165 


分 布 式 存储 器 的 机 器 之 上 构建 更 高 层 抽 象 是 有 可 能 的 。 在 过 去 的 十 年 中 ， 几 个 研究 小 组 已 成 
功 构 建 了 这 种 抽象 ， 产 生 了 称 为 分 区 的 全 局 地 址 空间 语言 (partitioned global address space 
language) 的 语言 家 族 ， 简 称 PGAS 语 言 。 

全 局 地 址 空间 是 指 一 些 语言 能 在 分 布 式 机 器 的 虚拟 存储 器 之 上 形成 单一 地 址 空间 。 这 些 
语言 未 提供 共享 存储 器 ， 因 为 并 未 期 望 硬件 能 使 得 共享 存储 器 保持 一 致 。 但 全 局 地 址 空间 的 
确 给 予 了 程序 员 定义 全 局 数据 结构 的 能 力 ， 这 对 于 分 布 式 存储 器 模型 而 言 是 一 大 改进 。 原 先 
程序 员 必 须 手 动 维护 独立 数据 结构 的 集合 ， 使 之 类 似 于 全 局 数据 结构 。 在 PGAS 语 言 中 ， 虽 然 
程序 员 仍 将 关注 于 单个 进程 的 行为 ， 而 且 仍 必须 区 分 本 地 数据 和 非 本 地 数据 ， 但 是 语言 通过 
消除 消息 传递 的 细节 简化 了 程序 设计 。 编 译 器 能 生成 对 应 于 程序 员 所 说 明 的 非 本 地 访问 的 所 
有 通信 调用 ， 而 且 它 们 使 用 了 单 边 通 信 作 为 底层 操作 ， 湾 在 地 这 就 比 消 息 传递 更 高 效 。 

三 种 主要 的 PGAS 语 言 是 Co-Array Fortran、Unified Parallel C 和 Titanium。 它 们 分 别 扩 展 
了 Fortran、C 语 言 和 Java。 现 在 我 们 逐一 对 它们 进行 考察 。 


7.2.1 Co-Array Fortran 


第 一 个 PGAS 语 言 是 Co-Array Fortran (CAF)， 这 个 Fortran 语 言 扩 展 由 Numrich 和 Reid 在 
20 世 纪 90 年 代 后 期 开发 。CAF 一 开始 被 称 为 F--， 以 其 精致 而 简洁 闻名 。 其 核心 理念 是 为 
Fortran 增 加 称 为 co-array (通信 数组 ) 的 单个 语言 扩展 ， 这 是 一 种 专 为 处 理 器 间 通 信 而 设计 的 
机 制 (“co” 是 communication 的 缩写 )。 注 意 Fortan 对 所 有 数组 访问 均 使 用 阅 括 号 ， 而 CAF 则 
通过 在 变量 名 后 附加 方 括号 [] 来 访问 co-array。 例 如 ， 以 下 代码 使 用 co-array 定 义 了 3 个 数组 变 
量 ， 如 黑体 字 所 示 : 


real, dimension(n,n)[p,*]:: a,b,c 


do k=1,n 
do q=1,p 
c(i,j) [myP,myQ]=c(i,j) [myP,myQ]+ 
a(i,k)[myP, q]*b(k,j)(q,myQ] 
enddo 
enddo 


根据 co-array 规 范 ， 存 放 变量 的 存储 器 是 分 布 于 各 进程 之 上 ， 这 在 CAF 中 称 为 影像 
(image)。 因 此 在 本 例 中 ， 如 dimension 语 名 所 定义 的 ， 每 个 进程 各 分 配 到 数组 a、b 和 c 的 一 部 
分 。 此 外 ，co-array 声 明 为 二 维 的 事实 表明 ， 进 程 要 在 逻辑 上 布局 为 p 行 和 q 列 的 2 维 组 织 。(* 
符号 表示 进程 的 每 一 行 都 要 尽 可 能 地 填 满 。 因 此 若 num_images()=pqg， 则 表示 有 p 行 和 q 列 的 进 
程 )。 每 个 进程 将 通过 调用 this_image0) 例 程 在 二 维 布局 中 找到 自己 的 位 置 ， 并 通过 定义 2 个 参 
数 myP 和 myQ， 访 问 最 终 数组 的 某 个 具体 部 分 。 至 于 数据 划分 的 管理 ， 包 括 初始 化 它们 的 值 ， 
则 是 CAF 程 序 员 的 责任 。 

在 以 下 图 示 中 ，myP=2，myQ=3: 
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以 上 矩阵 乘 的 代码 表明 ， 由 [myP，myQ] 定 义 的 各 进程 在 计算 点 积 时 ， 需 更 新 自己 部 分 的 
数组 值 。 为 了 访问 行 ， 它 需要 存 取 进程 [myP，q] 中 的 数据 ， 为 了 访问 列 ， 它 需要 存 取 [q， 
myQ] 中 的 数据 。 所 有 这 些 远程 访问 的 通信 调用 均 由 编译 器 生成 ， 这 极 大 简化 了 程序 设计 。 最 
初 的 CAF 实 现 使 用 了 Cray 专 有 的 、 称 为 Shmen 的 单 边 通信 库 ， 但 更 近期 的 实现 使 用 了 ARMCI 
和 GASNet， 这 两 者 都 是 标准 的 单 边 通 信 库 。 

CAF 为 分 布 式 存储 器 并 行 机 中 用 户 自 定义 的 通信 提供 了 清晰 而 巧妙 的 接口 。 


7.2.2 Unified Parallel C 


UPC 是 由 El-Ghazawi， Carlson 和 Draper 所 组 成 的 团队 在 2000 年 左右 开发 的 ， 它 为 程序 员 
提供 了 地 址 空间 的 全 局 视图 。 不 同 于 CAF， 当 UPC 数 组 变量 被 声明 为 “共享 ”时 ， 它 们 将 在 
程序 各 实例 的 存储 器 间 分 布 。 这 些 线性 顺序 的 数组 元 素 以 入 环 或 块 - 岩 环 的 布局 分 布 。 记 得 
我 们 曾 在 第 5 章 中 提 到 ， 循 环 或 块 ~ 循环 分 布 在 需要 考虑 负载 平衡 时 会 较 有 优势 ， 但 它们 通 党 
会 损失 局 部 性 。UPC 程 序 员 可 借助 于 直接 向 进程 分 配 部 分 数组 ， 以 此 恢复 局 部 性 ， 从 而 确保 
按 密集 的 邻 域 方式 进行 分 配 。 

由 于 UPC 扩 展 了 C 语 言 ， 因 此 它 能 够 支持 指针 。UPC 的 指针 可 以 是 私有 的 ( 即 对 线程 而 言 
是 本 地 的 ) 或 是 共享 的 。 因 为 指针 可 以 是 私有 的 或 共享 的 ， 又 因为 它们 所 指向 的 也 可 以 是 私 
有 的 或 共享 的 ， 因 此 就 有 了 四 种 类 型 的 指针 ， 

一 CCC 


指针 的 性 质 
引用 的 性 质 私有 共享 
私有 私有 一 私有 ,pl 私有 一 共享 ，p2 
HE 共享 一 私有 ，p3 共享 一 共享 ，p4 
这 些 性 质 是 与 语言 的 类 型 体系 紧密 联系 的 ， 就 如 同 它们 的 声明 所 表示 的 ， 
int *pl; /* 私 有 指针 指向 本 地 */ 
shared int *p2; /* 私 有 指针 指向 共享 空间 */ 
int *shared p3; /* 共 享 指针 指向 本 地 */ 
shared int *shared p4; /* 共 享 指针 指向 共享 空间 * / 


以 下 向 量 一 向 量 相 加 的 代码 ， 展 示 了 第 2 种 指针 的 使 用 方式 ， 即 私有 指针 指向 共享 空间 ， 


shared int v1l[N], v2[N], viv2sum[N]; 


void main() 
{ 
int i; 
shared int *pl, *p2; 
pi=v1; 
p2=v2; 
upe_forall(i=0; i<N; i++, pl++, p2++; i) 
{ 


viv2sum[i]=*pl+*p2; 
} 
} 


这 段 代码 还 说 明了 如 何 使 用 DPC 另 一 个 特性 ， 即 upc_forall 语 句 。 该 抽象 使 用 了 仿 射 性 
(affinity) 子 句 ， 即 upe_foral 规 范 中 的 第 4 个 子 句 ， 将 普通 C 语 言 的 loop 循 环 分 发 到 各 进程 。loop 
循环 的 仿 射 性 子 句 指示 了 选 代 执 行 的 位 置 。 在 本 例 中 ， 执行 第 i 次 迭代 的 进程 即 是 与 :相关 的 进程 
( 即 所 有 者 )。upc_forall 语 句 是 个 全 局 操作 ， 然而 绝 大 多 数 UPC 代 码 却 是 在 进程 中 本 地 执行 的 ，。 
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7.2.3 . Titanium 


eninm (Ti) 语言 是 由 美国 加 州 大 学 Berkeley 分 校 Kathy Yelick 所 领导 的 团队 开发 的 ， 它 
证 一 个 能 运行 于 分 布 式 存储 器 并 行 机 之 上 的 Java 扩 展 。 它 有 一 个 类 似 于 UPC 的 在 信 器 楼 区 
号 关 他 PGAS 语 言 一 样 ， 它 基于 单 边 通信 库 生成 通信 代码 。Ti 最 明显 的 一 个 特征 是 它 面 向 对 针 
全 山 ， 这 使 得 它 有 别 于 它 的 先驱 们 。 通 过 加 入 区 域 (region) ， 又 使 得 它 有 别 于 Java。 LM 
能 支持 安全 的 面向 性 能 的 存储 器 管理 ， 可 作为 无 用 信息 收集 (garbage collection) fj- shitie 
礼 式 。 其 他 一 些 Jave 特 性 或 被 林 或 被 限 ， 但 更 多 典型 的 特性 被 加 入 进来 。 例 如 2 维 数 组 的 加 人 
就 使 得 Ti 更 适合 于 科学 计算 ， 

shu 让 要 且 高 效 的 特性 是 它 的 无 序 迄 代 foreach， 这 同时 简化 了 程序 员 和 编译 器 的 工作 ， 
下 关键 性 的 特性 是 点 (point), ， 它 是 一 个 能 注 关 变量 定义 城 〔domain) (MERI) HER 
元 组 tuple) ， 请 注意 ， 点 在 以 下 矩阵 乘 中 所 使 用 的 名 字 是 ij 和 lk 


public static void matMul (double [2d] a, 
double [2d] b, 
double [2d] c) 
{ 
foreach (ij in c.domain()) 
{ 
double [1d] aRowi=a.slice(1, ijf1)); 
double [1d] bColj=b.slice(2, ijf2]); 
foreach (k in aRowi.domain()) 
{ 
¢{ij]+=aRowi[k]*bColj[k]; 
} 
} 
} 


四 此 ， 与 rall 相 比 ，foreach 克 许 在 单个 块 内 对 多 条 索引 执行 并 发 操作 。 

“um 使 用 障 家 和 一 个 在 所 有 进程 间 共享 、 称 为 single 的 共享 变量 的 概念 来 强制 实现 和 
必 人 二 。 信 如 ， 仿 真 中 很 常见 的 一 种 情况 是 各 个 进程 在 本 地 数据 上 计算 ， 然 后 阶段 性 地 调 总 
“并 作 。 障 村 能 确保 所 有 进程 在 同一 时 间 停止 计算 以 更 新 或 读 取 存储 器 。 以 到 的 信 售 用 
SEO 变量 能 确保 所 有 进程 处 于 计算 的 问 一 阶段 。 例 如 ， 应 用 该 概念 后 的 粒子 仿真 可 以 用 
以 下 代码 示 出 ; 

int single stepCount=0; 

int single endCount=100; 

for (; stepCount<endcount; stepCount++) 

‘ 读 取 远 程 的 粒子 

在 本 地 进程 上 计算 力 
Ti.barrier(); 

使 用 计算 得 到 的 新 力 写 人 自 己 的 粒子 
Ti.barrier(); 


} 
因为 进程 都 为 同一 个 值 所 控制 ， 所 以 它们 不 能 退出 同步 


7.3 小 结 


二 元 提 门 ，MPT 和 其 他 消息 传 递 库 最 大 的 优势 在 于 它们 的 普 适 性 。 将 _ 块 存储 器 从 个 法 
ERINES READE ate TF ROLE BEA TLL BRU Rk yo 
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中 ) 运行 于 任意 并 行 计算 机 上 。 这 种 普 适 性 是 消息 传递 库 能 够 流行 并 获得 成 功 的 最 基本 因素 。 

同 理 ，MPI 和 其 他 消息 传递 库 最 大 的 缺点 是 它们 抽象 的 底层 化 。 并 行程 序 设计 是 困难 的 ， 
而 且 正如 前 几 章 中 曾 提 及 的 ， 它 的 得 益 主 要 源 自 于 对 计算 的 抽象 。 而 MPI 对 这 些 抽象 只 提供 
了 初步 的 支持 。 例 如 ， 基 本 的 归 约 操作 只 支持 全 局 组 合 每 个 进程 中 的 单项 数据 ， 而 组 合 本 地 
值 的 任务 〈 即 应 用 归 约 操作 的 概念 到 一 个 完全 分 布 的 数据 结构 ) 则 必须 由 程序 员 自己 完成 。 
而 且 MPI 只 支持 了 基本 归 约 操作 符 中 一 个 很 小 的 集合 。 但 正如 我 们 曾 在 第 5 章 中 看 到 的 ， 抽 象 
通常 能 提供 更 多 的 功能 。 

通过 对 底层 硬件 做 最 少 的 假设 ， 消 息 传递 有 最 少 共同 点 的 美 名 : 即 它 能 在 任意 平台 上 执 
行 。 虽 然 更 高 一 层 的 语言 ， 例 如 PGAS 语 言 ， 依 然 在 继续 发 展 ， 但 当 程序 员 希 望 编 写 大 型 且 生 
命 周期 长 的 应 用 程序 时 ， 现 阶段 MPI 仍 是 不 二 之 选 。 


历史 回顾 


早期 的 分 布 式 存储 器 计算 机 各 自 都 带 有 自己 的 消息 传递 库 ， 这 很 不 利于 程序 的 移植 。 并 
行 虚 拟 机 PYM， 作 为 一 种 能 在 连 网 计算 机 上 执行 并 行 计算 的 方法 ， 是 由 Sunderam[1990] 首 先 
提出 的 。 随 着 PVM 的 成 功 ，MPI 标 准 也 很 快 跟 进 ， 并 被 迅速 的 广泛 使 用 开 来 。 在 认识 到 一 些 
由 MPI 的 底层 本 性 所 引起 的 问题 之 后 ，1998 年 先后 出 现 了 CAF[Numerich 1998] 和 
Titanium[Yelick 1998]， 此 后 UPC[El-Ghazawi 2001] 也 很 快 问世 。MPI 2.0 标 准 在 上 世纪 90 年 代 
后 期 制定 ， 它 增加 了 对 动态 进程 管理 和 并 行 IO 的 支持 ， 但 并 没有 被 广泛 采用 ， 可 能 是 由 于 这 
两 个 新 特性 使 得 对 它 的 实现 变 得 异常 复杂 。 
习题 
1. 执行 统计 3 的 个 数 的 MPI 程 序 (如 图 7-1 所 示 ) ， 对 于 固定 的 处 理 器 数 P， 试 分 析 该 程序 在 250 000 
个 元 素 与 10 000 000 个 元 素 之 间 的 可 扩展 性 。 
. 修改 统计 3 的 个 数 程序 ， 通 过 使 用 基于 图 $-1 中 结构 的 自 定义 树 ， 将 调用 替换 为 MPIL_Reduce()。 
试 与 习题 1 的 解决 方案 进行 比较 ， 看 是 否 存在 性 能 上 的 差异 ? 
.在 一 个 足够 大 的 、 能 体现 可 度量 行为 的 数组 上， 执行 20 次 SOR 计 算 (如 图 7-6 所 示 ) 的 迭代 。 然 
后 采用 重合 通信 和 计算 的 版 本 (如 图 7-8 所 示 ) ， 再 在 相同 大 小 的 数组 上 执行 相同 次 数 的 迭代 。 
试 比较 它们 的 性 能 。 
. 编写 一 个 MPI 程 序 ， 使 其 中 一 个 处 理 器 产生 足够 大 的 唯一 随机 数 键 的 集合 (至少 1 百 万 ) ， 然 后 将 
它们 分 发 到 其 他 处 理 器 。 
. 使 用 MPI 实 现 第 4 章 习 题 10 中 的 红 / 蓝 计算 。 
. 在 SMP 或 共享 存储 器 多 处 理 器 上 ， 使 用 OpenMP (第 6 章 习 题 8) 或 Java Threads (第 6 章 习 题 10) 
为 第 6 章 中 的 红 / 蓝 仿真 收集 定时 。 与 习题 5 的 解决 方案 比较 定时 ， 并 解释 性 能 上 的 差异 。 
.使 用 MPI 实 现 第 4 章 中 描述 的 Batcher’s Bitonic 排 序 ， 要 求 用 阻塞 式 发 送 和 接收 。 可 利用 习题 4 的 
结果 初始 化 该 计算 。 
. 修改 习题 7 中 Batcher's Bitonic 排 序 ， 使 用 非 阻塞 式 发 送 和 接收 以 重合 通信 和 计算 。 并 与 习题 7 的 
解决 方案 比较 性 能 。 
. 先 熟悉 第 8 章 和 矩阵 乘 小 节 中 的 SUMMA 和 矩阵 乘 算法 ， 然 后 在 行 广播 和 列 广播 中 应 用 组 的 概念 ， 实 
现 SUMMA 的 MPI 程 序 。 
10. 使 用 派生 数据 类 型 的 概念 以 及 习题 4 的 程序 ， 创 建 一 个 程序 ， 使 它 能 将 随机 数 分 发 到 各 处 理 器 ， 

并 与 随机 生成 的 4 字母 的 字符 串 配 成 对 ， 然 后 返回 给 主 处 理 器 。 


N 


U 


S 


Ou 


~ 


Oo 


O 


第 8 章 ZPL 和 其 他 全 局 视图 语言 


正如 我 们 之 前 曾 讨论 的 ，Pthreads 和 MPI 通 过 扩展 标准 串 行 程序 设计 语言 的 库 ， 支 持 并 行 
程序 设计 。 这 种 方式 所 带 来 的 优势 是 至 关 重 要 的 ， 程序 员 已 经 很 熟悉 基础 语言 ， 因 此 他 们 能 
专注 于 学 习 库 设施 (facility) ， 库 允许 程序 员 使 用 相似 的 工具 和 开发 环境 ， 而 且 实 现 库 比 实 
型 编译 器 要 快 。 库 的 主要 缺点 在 于 它们 既 不 能 提供 对 并 行程 序 设计 的 句法 支持 ， 亦 无 法 从 语 
言 或 编译 器 的 支持 中 获 益 。 

本 章 将 描述 全 局 视图 语言 ， 这 种 语言 能 让 程序 员 “ 看 ”到 全 部 计算 ， 而 不 是 关注 于 所 构 
成 的 部 分 ， 比 如 单独 的 进程 。 这 种 高 级 语言 能 支持 隐 式 并 行 ， 即 编译 器 会 管理 进程 的 创建 、 
通信 和 同步 ， 这 将 极 大 地 简化 程序 员 的 工作 。 

虽然 经 过 了 几 十 年 的 研究 ， 但 至 今 仍 没有 一 种 通用 的 高 级 并 行 语言 在 广泛 使 用 。 本 童 中 
我 们 将 先 介绍 一 种 高 级 语言 ZPL， 它 能 体现 如 何 从 语言 和 编译 器 的 支持 中 获 益 。 本 章 最 后 ， 
我 们 还 会 简单 地 介绍 另 一 个 全 局 视图 语言 NESL， 它 与 ZPL 有 着 截然 不 同 的 目标 和 特征 


8.1 ZPL 程 序 设 计 语 言 


人 鼓励 以 不 同 的 方式 进行 思考 ， 方 式 之 一 就 是 关注 数组 和 它们 的 操作 。ZPL 也 提供 了 隐 
式 并 行 ， 因 此 由 编译 器 生成 所 有 的 并 行进 程 或 线程 ， 插 入 所 有 必 和 需 的 通信 调用 ， 并 处 理 同步 ， 
例如 要 解决 第 1 章 中 的 统计 3 的 个 数 问题 ， 若 使 用 ZPL， 只 需 少许 声明 和 单个 语句 即 可 完成， 

[1..n] count:=+<<(array==3); 统计 3 的 个 数 计算 的 zPL 代 码 

其 并 行 解决 方案 是 由 编译 器 通过 该 语句 创建 的 ， 能 在 任意 并 行 计算 机 上 执行 ， 且 性 能 可 
与 尝试 4 相 媲 美 。 稍 后 会 解释 该 语句 。 

2PL 的 一 个 目标 是 允许 程序 员 推断 并 行 性 和 并 行 性 能 ， 包 括 通信 代价 ， 并 且 将 程序 员 从 编 
忆 间 信和 同步 语句 的 底层 细节 中 解脱 出 来 。 例 如 2ZPL 程 序 员 就 永远 不 必 担 心 竞 态 条 件 。ZPL 的 
”一 个 目标 是 提供 性 能 可 移植 性 ， 再 强调 一 下 ， 语 言 的 支持 是 很 关键 的 。 最 后 ， 我 们 会 看 到 
ZPIL 的 旬 法 如 何在 实现 它 的 目标 中 扮演 了 重要 角色 。 

我 们 对 ZPL 的 初步 介绍 将 从 描述 它 的 核心 概念 开始 ， 而 以 Conway 的 生命 游戏 程序 举例 作为 
竺 来 。 在 此 之 后 ， 再 回头 来 反观 此 语言 与 其 设计 目标 。 通 过 描述 - 些 更 高 级 的 特性 ， 我 们 继续 
PT 的 介绍 。 作 为 总 结 ， 我 们 会 解释 ZPL 如 何 提供 了 一 个 性 能 模型 ， 以 允许 程序 员 分 析 性 能 。 

获得 软件 . ZPL 的 编译 器 和 文档 可 以 通过 开源 的 方式 在 http:// www. cs. 

washington.edu.cn/research/zpl 上 获得 ， 编译 器 可 以 运行 在 Unix/Linux 系 统 之 上 ， 而 且 重 

部 署 到 新 并 行 机 上 也 较 容 易 o 


8.2 ZPL 基 本 概念 
生生 数组 语言 ， 这 意味 着 整个 数组 将 作为 一 个 单元 (unit) 进行 操作 。 因 此 如 果 要 递增 
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数组 A 中 的 所 有 元 素 ， 我 们 可 以 写成 : 
A:=A+1; 

或 者 也 可 以 等 价 地 写成 : 
A+=1; 


这 种 对 各 个 数组 元 素 的 更 新 在 逻辑 上 是 并 行 执行 的 。 注 意 ZPL 的 赋值 操作 是 := 而 不 是 简单 的 等 号 =。 
8.2.1 区 域 


修改 数组 中 所 有 元 素 很 常见 ， 而 只 修改 数组 中 某 些 特定 元 素 同样 也 很 普遍 。 为 了 说 明 在 
数组 表达 式 中 要 操作 的 元 素 ，ZPL 要 求 所 有 的 数组 操作 在 区 域 的 环境 (context) 中 执行 ， 如 
下 所 示 : 

[1l..n] A:=A+1; 

方 括号 中 的 文字 是 区 域 (region)， 也 即 是 索引 集 。 正 如 稍 后 我 们 将 看 到 的 ， 区 域 在 ZPL 
中 是 个 有 诸多 用 处 的 核心 理念 。 假 设 声明 数组 A 有 n 个 元 素 ， 索 引 值 为 1 到 n， 则 以 上 语 甸 将 修 
改 所 有 这 n 个 元 素 ， 因 为 区 域 [1..n] 指 定 了 语句 中 所 有 数组 元 素 的 索引 。 而 语句 

[1..n/2] A:=A+t1; 

只 会 修改 A 中 前 一 半 元 素 。 

WE: 作为 约定 ，ZPL 程 序 员 会 大 写 数组 名 和 区 域名 的 首 字母 ， 以 强调 它们 将 访问 许多 

元 素 ， 而 小 写 其 余 所 有 的 字母 。 

区 域 形式 。 区 域 有 多 种 形式 。 通 常 所 显示 的 形式 ， 下 限 为 HH， 上 限 为 遇 ， 只 要 满足 11<ul， 
就 可 以 取 中 间 的 任意 值 ， 每 一 维 的 上 下 限 用 两 个 点 C) 分 开 ， 而 各 维 之 间 用 逗号 (,) OF, 


如 下 例 所 示 : 
[-100..100] ”一 个 有 201 个 索引 值 的 线性 数组 
[1..8,1..8] 一 个 棋盘 式 的 正方 形 数组 (8 x 8) 


[1..4,1..4,1] 3 维 空间 中 的 一 个 平面 ， 相 当 于 [1..4,1..4,1..1] 


如 最 后 一 个 例子 所 示 ， 维 可 以 只 由 单个 值 组 成 ， 可 称 之 为 压缩 (collapsed) H. ARIAN 
不 必 一 定 是 常数 ， 它 们 也 可 以 是 整数 表达 式 ， 如 下 所 示 : 

[min/2..2*max] 
其 中 min 和 max 都 是 标量 变量 ， 即 单个 数字 值 。 

能 描述 子 数组 的 区 域 。 由 于 区 域 指 定 了 参与 计算 的 数组 索引 ， 因 此 所 指定 的 索引 必须 存 
在 于 所 有 在 语句 中 出 现 的 数组 中 。 不 过 这 些 数组 倒 无 需 具 有 相同 的 维 。 例 如 ， 假 设 B 是 m xn, 
Efimxm, #im<n, Wl; 

{[l..m, 1..m] E:=1/B; 

访问 了 BE 的 全 部 ， 但 只 访问 了 B 的 mm x m 子 数组 ， 而 B 的 另外 一 些 元 素 却 没 有 被 该 语句 访问 到 。 

通过 简单 地 访问 各 维 都 被 压缩 的 降 维 区 域 ， 是 有 可 能 改变 数组 中 的 单个 元 素 ， 虽 然 这 样 
做 并 不 常见 ， 如 : 

[x,y] D:=sqrt(2); 
将 单个 元 素 D[x, y] 设 为 1.414…。 

声明 中 的 区 域 。 除 了 指定 参与 计算 的 数组 元 素 ， 区 域 也 可 用 来 声明 数组 的 大 小 。 


PSE ZPL¥eAUWS SMART 171 


例如 ，3 个 m x n 数 组 B，C 和 D， 可 声明 如 下 : 

Var B, C, D : [l..m, 1..n] float; 

这 些 都 是 浮 点 数组 。 代 码 规 范 8.1 列 举 了 ZPL 所 支持 的 所 有 原始 类 型 。 

命名 区 域 。 在 程序 中 反复 书写 相同 的 区 域 颇 令 人 厌烦 ， 因 此 可 使 用 region 声 明 来 命名 区 域 ， 
如 下 所 示 : 

region R= [l..m, 1..n]; 

此 后 ， 该 区 域名 就 可 在 区 域 所 能 出 现 之 处 使 用 。 它 们 能 用 在 声明 中 ， 如 ; 

Var B, C, D: [R] float; 
也 能 用 来 指定 数组 操作 的 索引 : 

[R] B:=2*C+D; 
区 域名 的 前 后 要 加 方 括号 。 

代码 规范 8.1 ZPL 中 可 用 的 原始 数据 类 型 
.oo 
字 节 类 型 2 字 节 类 型 ' 

boolean 
sbyte shortint integer longint 
























ubyte ushortint uinteger ulongint 
float double quad 
complex dcomplex qcomplex 









前 组 4 表明 所 表示 的 数据 是 不 带 符号 的 ， 这 可 使 它 的 精度 增加 一 位 。quad (四 精度 ) 类 
型 仅 在 特定 体系 结构 上 的 C 语 言 中 可 用 。 否 则 它 默 认 就 是 double (WEE), EH 
complex (复数 ) 类 型 使 用 了 k 字 节 表 示 实 数 部 分 ，k 字 节 表 示 虚 数 部 分 。 


区 域 的 范围 。 最 后 ， 区 域 是 有 词法 范围 的 ， 也 就 是 说 ， 应 用 到 某 语句 的 区 域 是 由 最 靠近 
该 语句 的 区 域 说 明 所 指定 的 。 例 如 ， 在 以 下 代码 片段 中 ， 区 域 [R] 前 缀 于 包含 了 4 个 语句 的 
repeat 语 句 。 其 中 区 域 [R] 应 用 到 语句 s1，s2 和 s4， 而 s3 则 应 用 了 不 同 的 区 域 ， 






[R] repeat 
sl; 
$2; 

{2..m-1, 1..n] s3; 


until condition; 

(代码 规范 8.2 列 举 了 ZPL 中 可 用 的 控制 流 结构 )。 由 于 程序 经 常 都 会 在 许多 形状 相同 的 数 
组 上 进行 操作 ， 因 此 经 常会 为 程序 声明 单个 区 域 ， 并 将 其 前 级 于 主 程序 块 之 前 ， 这 样 所 有 语 
句 都 会 在 那 种 形状 的 数组 上 进行 操作 ， 除 非 用 其 他 区 域 指 定 。 
8.2.2 数组 计算 

代码 规范 8.3 所 列举 的 ZPL 原 始 操作 符 ， 能 应 用 于 标量 或 数组 操作 数 。 当 给 定数 组 操作 数 
时 ， 操 作 符 作用 到 操作 数 所 对 应 的 各 个 元 素 ， 它 们 必须 具有 相同 的 秩 (rank) 。 例 如 ， 语 名 
( 源 自我 们 稍 后 要 讨论 的 程序 ) 


[R] TW: =(TW&NN=2) | (NN=3); 


作用 到 R 中 所 有 索引 所 对 应 的 数组 元 素 ， 就 如 同 有 许多 以 下 形式 的 语句 
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TWL1,1]:=(TW{1,1)J&NN[1,1)]=2) | (NN[1,1]=3) 
TW(1,2]:=(TW[1,2]&NN[1,2]=2) | (NN[1,2]=3) 
TW[1,3]:=(TW[1,3]&NN[1,3]=2) | (NN[1,3]=3) 


TW[m,n]:=(TW[m,n]&NN[m,n]=2) | (NN[m,n]=3) 


在 同时 执行 。( 注 意 在 代码 规范 8.3 中 等 号 (=) 操作 符 用 作 测 试 是 否 相等 ， 而 不 是 赋值 。) 
代码 规范 8.2 ZPL 中 控制 语句 的 语法 


ZPL 的 控制 流 语句 


if logical-expression then statements {else statements} end; 
for var := low to high {by step} do statements end; 
while logical-expression do statements end; 

repeat statements until logical-expression; 

return {expression}; 

begin statements end; 


大 括号 中 的 文字 是 可 选 的 。 斜 体 的 文字 必须 用 相应 类 型 的 程序 结构 替换 ， 








代码 规范 8.3 ZPL 的 原始 操作 符 和 赋值 操作 符 





数据 类 型 操作 符 

数值 +( 一 元 ), -( 一 元 ), +, -, *, /, ^, %( 模 ) 
逻辑 1&1 

关系 =,!=,<»>,<=,>= 

位 bnot(a),band(a,b),bor(a,b) ,bxor(a,b), 


bsl(s,a)( 将 a 左 移 s 位 ， 用 0 填补 空 处 ) 
bsr(s,a)( 将 a 右 移 s 位 ， 用 0 填补 空 处 ) 


指数 操作 (^) 针对 小 备 的 乘法 进行 了 优化 ， 例 如 2， 但 通常 情况 下 都 会 编译 成 调用 
C 语 言 的 pow0 函 数 。 
可 识别 的 赋值 操作 符 是 ;+=，-=，*=，/=，%=，&=, l=, 


@- 转 换 。 迄 今 为 止 ， 我 们 所 举 的 数组 计算 实例 都 作用 相同 区 域 到 各 数组 操作 数 。 为 了 人 
许 程序 员 对 单独 的 数组 操作 数 偏 移 索 引 ，ZPL 提 供 了 @ 操 作 符 ， 它 采 用 数组 和 方向 (direction) 
作为 操作 数 。 方 向 是 一 个 与 数组 操作 数 有 相同 秩 的 向 量 ， 例如 ， 为 了 允许 数组 A 中 的 每 个 元 素 
都 能 访问 它 的 左边 和 右边 ， 我 们 可 以 声明 2 个 方向 ， 

direction left=[-1]; right=[1]; 

当 使 用 @ 操 作 符 时 ， 方 向 将 根据 所 说 明 的 向 量 转换 数组 的 区 域 。 如 下 所 示 ， 在 语句 

[2..n-1] Ar:=(AtA@leftt+A@right)/3; 

中 ，A 使 用 了 区 域 给 出 的 索引 集 ， A@left 使 用 了 比 区 域 中 索引 小 1 的 索引 集 ， 即 1 到 n-2， 
A@right 使 用 了 比 区 域 中 索引 大 1 的 索引 集 ， 即 3 到 n。 与 其 他 数组 语言 一 样 ， 赋 值 语句 的 语义 
将 首先 计算 整个 右边 表达 式 ， 然后 将 结果 赋值 给 左边 表达 式 。 据 此 可 知 ， 该 语句 的 效果 是 将 
数组 内 部 的 每 个 元 素 堆 换 为 该 元 素 本 身 与 它 左右 邻居 的 平均 值 ， 

作为 另外 一 个 例子 ， 可 以 如 下 声明 8 个 罗盘 的 方向 ， 


direction nw=[-1,-1]; no=[-1, 0]; ne=[-1, 1]; 
we=[ 0,-1]; ea={[ 0, 1); 
sw=[ 1,-1]; so=[ 1, 0]; se=[ 1, 1); 
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如 果 TW 是 一 个 含有 0 或 1 的 2 维 数组 ， 则 表达 式 
TWênw + TW@no + TW@ne + 

TWewe + TWeea + 

TWésw + TWéso + TWése 


将 计算 出 一 个 数组 ， 该 数组 中 每 个 位 置 的 值 是 其 在 TW 中 各 邻居 结 点 值 为 1 的 数目 。( 空 格 
在 ZPL 中 是 被 忽略 的 ， 因 此 各 项 的 布局 无 论 在 声明 上 还 是 在 表达 上 ， 都 在 试图 提示 转换 的 方 
向 )。 稍 后 我 们 将 在 一 个 实例 程序 中 用 到 该 计算 ， 但 在 此 之 前 我 们 要 先 解释 另 一 个 概念 。 

归 约 。 回 忆 之 前 的 章节 ， 一 个 归 约 操作 使 用 某 个 原始 操作 符 ， 组 合 数组 中 所 有 的 元 素 。 
我 们 说 能 “使 用 操作 符 将 数组 归 约 为 单个 值 "*。ZPL 的 归 约 操作 通过 如 下 形式 给 

op<<A 
此 处 op 可 以 是 原始 的 结合 和 交换 操作 符 之 一 : +, *, &, |, maxfilmin, HT MANNIE 
求 和 ， 可 以 写作 

(2..n-l] total:=+<<A 
注意 ， 与 所 有 ZPL 中 的 数组 操作 一 样 ， 指 定 区 域 是 很 关键 的 。 
归 约 能 应 用 到 任意 秩 的 数组 ， 因 此 为 了 找 出 2 维 数组 B 中 的 最 大 元 素 ， 可 以 写作 

[R] biggest := max<<B; 
不 一 定 非 要 保存 标量 结果 。 因 此 以 下 代码 也 是 合法 的 : 

[R] span:=(max<<A)-(min<<A)+1; 
归 约 操作 是 使 用 第 4 章 中 的 Schwartz 算 法 实现 的 。ZPL 也 提供 了 扫描 操作 符 ， 使 用 句法 +llIA 表 


示 + -scan, 


8.3 生命 游戏 实例 


为 了 进一步 解释 之 前 介绍 的 概念 ， 我 们 把 Conway 的 生命 游戏 (Game of Life) 作为 一 个 
简洁 的 实例 。 生 命 游 戏 是 一 个 很 简单 的 计算 ， 经 常用 作 屏 幕 保护 程序 。 


8.3.1 问题 


生命 游戏 在 二 维 网 格 中 仿真 生物 的 繁殖 。 初 始 设置 为 第 0 代 。 其 规则 如 下 : 

* 在 第 ; 代 时 ， 如 果 某 生物 至 少 有 2 个 邻居 ， 但 不 多 于 3 个 ， 则 该 生物 将 生存 到 第 计 1 代 。 

* 在 第 i 代 时 ， 如 果 某 位 置 是 空 的 ， 且 其 周围 正好 有 3 个 邻居 ， 则 生物 将 在 第 半 1 代 时 出 生 。 

“所 有 其 他 生物 都 将 在 第 计 1 代 之 前 死去 。 

以 上 规则 可 以 简化 为 单个 条 件 : 即 某 生 物 之 所 以 能 在 第 i+1 代 时 存在 ， 或 是 因为 它 生 存在 
第 i 代 时 正好 有 2 个 邻居 ， 或 是 因为 它 的 位 置 (无 论 是 否 被 某 个 现存 生物 所 占据 ) 在 第 ; 代 时 正 
好 有 3 个 邻居 。 


8.3.2 解决 方案 


我 们 使 用 称 为 the world 的 数组 TW 来 解决 这 个 矩形 世界 中 的 问题 。 生 物 用 1 位 (bit) 表示。 
为 了 知道 某 个 位 置 有 多 少 个 邻居 生存 ， 就 如 之 前 所 讨论 的 ， 将 其 周围 最 近 的 8 个 邻居 求 和 到 一 
个 称 为 邻居 数目 (neighbor number) 的 变量 NN 中 。 我 们 使 用 了 图 8-1 中 所 示 出 的 逻辑 。 
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1 program Life; 

2 config const n : integer = 50; 

3 

4 region 

5 R =[1..n, l..n ] 

6 BigR=[0..n+1, 0..n+1]; 

7 

8 var 

9 TW: [BigR] boolean = 0; -- 世界 





10 NN:TR] integer; -- 邻居 数目 





direction 
13 nw=[-1, -1]; no=[-1, 0]; ne=[(-1, 1); 
14 we=[ 0, -1]; ea=[ 0, 1]; 
15 sw={[ 1, -1]; so=[ 1, 0]; se=[ 1, 1]; 
















procedure Life(); 











18 begin 

19 -- 初始 化 世界 

20 [R] repeat 

21 NN: =TW@nw+TWéno+TWéne+ 

22 TWewe+ TWeea+ 

23 TWeswtTWéso+TWese; 

24 TW:=(TW & NN = 2) |(NN = 3); 
25 until i(|<< Tw); 





26 end; 






8-1 实现 Conway 生 命 游戏 的 ZPL 程 序 


8.3.3 如 何 实现 


程序 的 前 半 部 分 由 以 下 声明 所 组 成 ， 
“第 2 行 说 明了 数组 的 边界 n, 作为 配置 常量 。 这 意味 着 它 的 值 在 一 开始 设 定 后 就 不 会 改变 。 
初始 设 定 或 是 默认 值 50， 或 是 命令 行 上 指定 的 值 。 
“第 4-6 行 声明 了 2 个 区 域 ，BigR 比 R 要 大 ， 因此 它 能 保存 边界 值 。 这 些 边 界 没有 生物 存在 ， 
所 以 被 赋值 为 0。 这 些 值 是 @- 访 问 所 涉及 的 定义 值 ， 因此 是 必需 的 。 
“第 8-10 行 声明 了 初始 值 为 0 的 问题 表示 (TW), 以 及 邻居 的 中 间 计数 器 (NN ) 。 
"第 12-15 行 定义 了 访问 最 近邻 居所 需 的 8 个 罗盘 方向 。 
程序 所 声明 的 2 个 区 域 进行 了 3 次 组 合 ， 可 能 这 会 诱 使 我 们 对 其 命名 。 但 无 论 如 何 ， 我 们 
都 鼓励 使 用 命名 区 域 ， 因为 这 会 获得 与 在 其 他 程序 设计 语言 中 使 用 命名 常量 相同 的 益处 。 也 
就 是 说 ， 命 名 区 域 为 常量 提供 了 附加 的 意义 ， 这 会 使 程序 更 加 容易 理解 、 修 改 和 维护 。 
程序 只 有 一 个 过 程 ， 称 为 Life (参见 代码 规范 8.4) 。 在 数组 TW 初始 化 之 后 (我 们 假设 创 
建 了 随机 设 定 ,或 是 读 和 人 了 输入 文件 )， 计算 进入 了 数组 计算 上 的 repeat- 循 环 。 第 1 行 ， 
NN: =TWEnw+TW@not+TWéne+ 
TWewe+ TWeeat+ 
TWeswtTWésot+TWese; 
通过 将 布尔 数组 类 型 转换 成 整数 数组 类 型 后 再 相 加 的 方式 ， 为 每 个 数组 位 置 计 算 活着 的 
邻居 数 。 这 行 代码 可 以 理解 为 “加 TW 中 西北 方向 邻居 的 元 素 值 ， 再 加 TW 中 正 北方 向 邻居 的 
元 素 值 ， 再 加 TW 中 东北 方向 邻居 的 元 素 值 ……”， 也 即 是 当 ZPL 程 序 员 思考 这 类 操作 时 ， 会 
从 全 局 数组 的 观点 出 发 ， 而 不 是 从 局 部 索引 的 观点 出 发 。 


=z 
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下 一 行 (第 24 行 ) 通过 应 用 Conway 的 规则 创建 下 一 代 。 组 合 这 些 规则 到 一 条 语句 ， 我 们 
得 到 : 

TW:=(TW&NN=2)& (NN=3); 

它 对 2 个 数组 进行 逐个 元 素 的 逻辑 或 计算 ， 即 正 好 有 2 个 邻居 的 生物 数组 ， 以 及 正好 有 3 个 
邻居 的 位 置 数组 。 

当 一 次 循环 结束 后 ， 终止 检测 将 检查 是 否 有 生物 仍然 生存 ， 如 果 没 有 ， 则 退出 。 尤 其 是 
终止 条 件 

t (|<<TW); 
会 在 世界 数组 TW 上 计算 or-reduce (或 归 约 ) ， 即 如 果 没 有 生物 生存 ， 则 为 false。 它 将 结果 取 
反 以 控制 repeat 循 环 。 

代码 规范 8.4 指定 ZPL 的 入 口 过 程 


入 口 点 
2ZPL 需 要 有 某 个 过 程 与 程序 同名 ， 即 与 第 一 行 program 之 后 的 单词 相 匹配 ， 则 该 过 程 即 


是 ZPL 计 算 的 入口 点 。 





8.3.4 生命 游戏 的 哲学 


生命 游戏 很 简单 ，ZPL 的 程序 实现 也 很 简单 ， 程序 的 绝 大 部 分 由 声明 组 成 ， 一 旦 区 域 和 方 
向 声明 好 之 后 ， 真 正 的 计算 既 简 洁 (两 条 语句 ) 又 清晰 。 简 洁 源 自 于 数组 操作 的 使 用 ， 它 能 
同时 操作 整个 数组 。 清晰 源 自 于 诸如 区 域 和 方向 之 类 的 抽象 ， 它 允 许 程序 员 以 TW@nw 的 方式 
访问 数组 ， 而 不 是 强迫 他 们 直接 处 理 每 个 单独 的 元 素 。 数组 操作 符 的 使 用 也 提供 了 隐 式 并 行 
源 ， 即 编译 器 将 生命 游戏 程序 编译 成 高 度 并 行 的 程序 ， 使 得 几乎 所 有 的 底层 细节 都 对 程序 员 

结束 这 个 ZPL 的 初步 介绍 之 后 ， 我 们 现在 已 经 准备 好 更 深入 地 了 解读 语言 的 核心 理念 和 设 
计 哲 学 。 


8.4 与 众 不 同 的 ZPL 特 征 


ZPL 的 目标 是 提供 程序 设计 便利 性 和 性 能 可 移植 性 ， 那么 它 是 如 何 实现 这 两 个 目标 的 ? TE 
如 我 们 所 看 到 的 ， 它 的 便利 性 部 分 源 自 于 它 一 次 就 能 操作 整个 数组 的 能 力 ， 但 也 存在 很 多 其 他 
数组 语言 ， 包 括 APL 和 Fotran 90， 那么 ZPL 到 底 不 同 在 哪里 ? 在 本 小 节 中 当 我 们 讨论 使 ZPL 有 
别 于 其 他 语言 (包括 其 他 数组 语言 )、 隐藏 于 ZPL 之 中 的 核心 理念 时 ， 我 们 将 会 解答 这 些 问 题 。 


8.4.1 区 域 


ZPL 的 区 域 结构 允许 程序 员 在 抽象 层 操作 数组 索引 ， 因此 索引 集 可 命名 和 重用 。 此 外 能 使 
用 操作 符 对 区 域 进行 处 理 ， 如 @ 操 作 符 ， 这 此 操 作 符 所 注重 的 是 不 同 数组 访问 之 间 的 关系 。 


8.4.2 语句 级 索引 


与 其 他 大 多 数 语言 不 同 ， 区 域 应 用 到 整个 语句 ， 而 不 是 单个 数组 。 这 种 方法 的 句法 好 处 
在 于 ， 它 既 能 表现 一 个 语句 中 多 种 数组 表达 式 之 间 的 通用 性 ， 同时 又 能 突出 不 同 表达 式 之 间 
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的 差异 性 。 例 如 ， 在 生命 游戏 的 程序 中 ， 代 码 行 : 


NN:=TWenw+TWeno+TWene+ 
TWewet TW@eat+ 
TWeswt+TWesot+TWése; 


明确 地 表示 , 通过 定义 8 个 方向 , 使 得 对 TW 数组 8 次 访问 中 的 每 一 次 都 能 访问 数组 的 不 同 偏 移 。 
程序 员 必 须 正确 声明 8 个 方向 ， 但 之 后 就 能 使 用 它们 的 名 字 以 及 它们 所 表示 的 含意 。 与 之 相对 
的 是 ， 在 那些 没有 区 域 且 将 索引 直接 应 用 到 独立 数组 的 语言 中 ， 程 序 员 必须 为 每 个 数组 访问 
重复 具体 的 索引 计算 ， 如 在 Fotran 90 中 就 可 能 》 

NN(1:n; 1:n)=TW(O:n-1; O:n-1)+TW(0:n-1; lin)+TW(O:n-1, 2:n+1)+ 


TW(1s:n; Osn-1)+ TW(1sn, 2:n+1)+ 
TW(2:n+1; 0:n-1)+TW(2:n+1; lin)+TW(2:ntl, 2:n+1) 


除了 区 域 的 句法 好 处 之 外 ， 一 个 更 微妙 且 更 深层 次 的 语义 好 处 在 于 它 能 适应 并 行 性 能 。 
为 了 理解 这 个 好 处 ， 必 须 先 了 解 ZPL 中 使 用 区 域 的 限制 。 


8.4.3 区域 的 限制 


ZPL 语 句 级 索引 限制 了 可 表达 的 数组 计算 的 类 型 。 例 如 ， 单 靠 @ 操 作 符 所 提供 的 索引 转换 
操作 ， 不 可 能 转 置 一 个 矩阵 的 元 素 ， 而 这 在 几乎 其 他 任意 语言 中 ， 都 能 使 用 直接 数组 索引 相 
当 简单 地 表示 出 来 。 

for(i=1; i<n; i++) 

{ 

for(j=1; i<n; i++) 
{ 
Atranspose[i](jJ=A(iJ){il; 
} 
} 


这 些 限 制 其 实 是 有 意识 地 人 迫使 程序 设计 准则 将 昂贵 的 操作 ( 指 并 行 执行 中 的 通信 ) 与 廉 
价 的 操作 区 分 开 来 。 该 准则 也 简化 了 并 行 性 能 模型 的 定义 ， 而 这 对 实现 性 能 可 移植 性 的 目标 
是 至 关 重 要 的 。(ZPL 另 有 一 个 操作 remap 可 实现 转 置 ， 参 见 下 文 。) 


8.4.4 性 能 模型 


隐藏 于 ZPL 性 能 模型 之 后 的 基本 理念 是 基于 程序 已 声明 的 区 域 ， 说 明 数 据 分布 。 这 种 分 布 
也 指明 了 每 个 ZPL 操 作 所 需 的 数据 移动 ， 这 就 允许 程序 员 依照 句 法 来 确定 通信 代价 。 因 此 ZPL 
程序 员 必 须 高 度 关注 区 域 与 其 秩 之 间 的 关系 ， 因 为 这 种 关系 隐 含 着 程序 并 行 执行 时 的 通信 。 
作为 交换 ，ZPL 程 序 员 无 需 再 担心 同步 或 通信 的 底层 细节 。 而 且 ZPL 编 译 器 也 被 给 予 了 许多 重 
要 信息 ， 这 能 方便 它 完 成 多 种 不 同 通信 的 优化 。 

为 了 理解 ZPL 限 定 的 必要 性 ， 将 以 下 的 循环 早 套 与 之 前 的 转 置 代码 相对 照 ， 
- for(i=1l; i<n; i++) 

for(j=1; i<n; i++) 

{ 

Atranspose[i][j]=Al[il[j]; 


} 
} 


除了 语句 右边 对 索引 的 转 置 之 外 ， 这 两 段 代 码 几 乎 是 完全 相同 的 。 但 就 数据 移动 而 言 ， 
两 者 是 天 壤 之 别 ， 前 者 在 每 个 进程 中 都 需要 显著 通信 ， 而 后 者 却 根本 不 需要 通信 。 因 此 ， 葫 
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元 许 前 者 的 语言 就 不 可 能 提供 有 意义 的 性 能 模型 ， 因 为 没有 一 种 容易 的 方法 能 区 分 开 昂 贵 的 
操作 与 廉价 的 操作 。 


8.4.5 用 减法 实现 加 法 


2PL 程 序 员 也 因此 从 失去 的 一 些 自由 中 换 得 了 一 些 好 处 。 尤 其 是 ，ZPL 语 言 可 以 用 一 些 代 
价 更 好 定义 、 但 较 不 通用 的 操作 来 替代 那些 代价 变动 很 大 、 但 较 通用 的 操作 ， 在 之 前 例子 中 
就 是 直接 数组 索引 。 

我 们 也 看 到 了 对 数组 秩 的 限定 ， 即 只 有 当 数组 有 相同 秩 时 ， 原 始 操作 符 才 能 操作 这 些 数 
组 操作 数 。 例 如 ， 如 果 A 被 声明 为 维 数组 ， 有 索引 [1..n]， 那 么 它 就 不 能 与 2 维 数 组 C 的 第 1 行 
相 加 : 

[1, 1..n] C:=C+a 不 合法 : A 和 C 有 不 同 的 秩 

这 种 限定 对 保持 PL 的 性 能 模型 是 必须 的 。 否 则 赋值 语句 的 通信 代价 将 依据 数组 C 的 分 布 
是 按 行 维 、 按 列 维 、 或 是 按 行 列 两 个 维 ， 而 发 生 很 大 变化 。 

随后 的 两 个 小 节 中 将 介绍 ZPL 所 具有 的 能 改变 数组 秩 的 特性 。 例 如 ， 我 们 将 看 到 如 何 实现 
甜 阵 的 转 置 。 然 后 将 解释 ZPL 的 性 能 模型 ， 它 是 实现 性 能 可 移植 性 的 关键 所 在 


8.5 操作 不 同 秩 的 数组 


在 ZPL 中 ， 用 来 定义 数组 的 区 域 ， 不 仅 会 指定 它 的 维 数 、 元 素数 和 索引 ， 会 说 明 它 的 分 
配 。 不 同 秩 的 数组 通常 有 不 同 分 配 ， 这 将 显著 影响 由 不 同 ZPL 操 作 符 引入 的 通信 。 因 此 通 党 
情况 下 ，2PL 要 求 语句 中 所 有 的 数组 都 有 相同 的 秩 。 但 在 某 些 情况 中 ， 计 算 会 产生 不 同 秩 的 
数组 ， 在 另 一 些 情况 中 ， 不 同 秩 的 数组 甚至 必须 在 一 起 操作 。 对 于 这 些 情况 ， 可 使 用 两 种 基 
本 思路 来 处 理 

* 使 用 更 大 的 秩 较 小 秩 的 数组 能 被 声明 成 拥有 与 另 一 个 数组 相同 的 秩 。 秩 较 低 的 数组 能 

通过 漠 加 一 个 或 多 个 压缩 维 ， 转 变 成 秩 较 高 的 数组 。 例 如 ， 为 了 在 区 域 分 别 为 [1..n， 

1 了 Dj 和 [1..m,1..n, 1..p] 的 数组 上 操作 ， 可 以 将 第 一 个 区 域 转变 成 [1,1.n, Lp]. 

* 复制 元 素 当 重 复 使 用 低 秩 数 组 的 值 作为 高 秩 数 组 的 元 素 时 ， 低 秩 数组 的 元 素 就 能 被 复 

制 ， 这 样 它们 就 能 和 另 一 个 数组 的 元 素 进行 操作 。ZPL 的 扩充 (flood) 操作 符 能 高 效 地 

完成 复制 ， 而 不 必 重复 表示 每 个 被 复制 的 元 素 。 

在 本 小 节 的 后 半 部 分 ,我们 将 看 到 这 两 种 基本 思路 融合 到 “扩充 维 ” 的 概念 中 。 现 在 来 
介绍 能 改变 秩 的 操作 符 ， 如 部 分 归 约 ， 以 及 能 支持 不 同 秩 的 操作 符 ， 如 扩充 。 


8.5.1 部 分 归 约 
归 约 操作 将 一 个 数组 转换 为 一 个 标量 ， 即 ， 


SuUum;=+<<A; 

求 和 数组 A 的 元 素 以 产生 单个 值 。 车 该 结果 可 以 看 成 是 对 数组 中 所 有 维 的 “ 归 约 ”或 组 合 ， 
则 部 分 归 约 就 可 看 成 是 对 数组 中 某 些 维 的 组 合 。 对 于 m x n 的 数组 8B， 我们 通过 组 合 列 的 信 产 
生 单个 行 ， 以 此 归 约 第 ! 维 ， 或 者 通过 组 合 行 的 什 产 生 单个 列 ， 以 此 归 约 第 2 维 。 此 处 B 被 称 为 
源 数 组 ， 而 结果 行 或 结果 列 则 被 称 为 月 标 数组 。 

个 出 意料 ，ZPL 的 部 分 归 约 使 用 了 两 个 具有 相同 秩 的 区 域 。 一 个 用 来 指定 操作 数 数组 的 派 
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索引 ， 而 另 一 个 用 来 指定 结果 数组 的 目标 索引 。 源 区 域 是 作为 归 约 操作 的 操作 数 指定 的 ， 而 
目标 区 域 则 是 作用 到 语句 的 区 域 。 为 了 使 用 加 法 操作 符 ， 沿 第 1 维 部 分 归 约 B (即将 各 列 的 值 
相 加 以 产生 行 )， 编 写 如 下 : 

[1,1..n] C:=+<< [1..m, 1..n] B; 

此 处 “操作 数 区 域 ”[1..m, 1..n] 指 定 了 数组 B 参 与 归 约 的 索引 (UR), “语句 区 域 ”[1,1.n] 
指定 了 结果 的 索引 (目标 )。 例 如 ， 对 于 m = 3 和 n = 4， 则 有 


[1, 1..4] 7765 = +<<[1..3, 1..4] 3141 


1414 
i 3210 
我 们 看 到 两 个 区 域 在 第 1 维 有 所 不 同 ， 因 此 该 操作 将 第 1 维 从 3 个 元 素 归 约 到 1 个 ， 而 保留 


第 2 维 不 变 。 
为 了 使 用 乘法 操作 符 归 约 B 的 第 2 维 ， 即 将 各 行 的 值 相 乘 以 产生 列 ， 编 写 如 下 : 
[1..m，1] D:=*<< [1..m 1..n] B; 
对 于 m = 3 和 n = 4， 结 果 应 是 : 


[1..3，1] 12 & *<<[1..3, 1..4] 3141 
1 


6 1414 
0 3210 
Le. | 
本 例子 中 ， 两 个 区 域 在 第 2 维 有 所 不 同 ， 因 此 3 x 4 的 数组 将 归 约 到 只 有 3 个 元 素 的 单个 列 。 
注意 到 语句 中 的 区 域 实际 上 只 是 为 计算 定义 了 主流 环境 ， 最 接近 的 可 用 区 域 可 作为 另 一 
个 操作 的 操作 数 指定 ， 如 在 p x m x n 的 数组 F 上 有 更 复杂 的 操作 ， 
[1,1,1. .n] G :=max<<[1,1. .m,1. .n] (min<<[1. .p,l. .m,1. .nj F); 
找 出 第 1 维 上 值 最 小 的 平面 ， 然 后 找 出 该 平面 各 列 中 值 最 大 的 行 ， 因 此 对 于 m = 3，7 = 4， 
pP = 2， 示 例如 下 : 


{1,1..3,1..4] 2131 = min<<[1..2,1..3,1..4] 3141 
1312 1414 
0200 3210 


2434 
1322 
0503 


[1,1,1..4] 2332 — max<<[1l, 1..3, 1..4] 2131 
1312 
0200 


此 处 最 小 归 约 组 合 了 第 1 维 ， 然 后 最 大 归 约 组 合 了 第 2 维 。 
8.5.2 扩充 


如 同 归 约 数组 的 维 是 有 可 能 的 ， 扩 充 数 组 的 维 也 应 该 是 有 可 能 的 。ZPL 的 扩充 (flood) 
操作 符 (>>) 通过 在 所 指定 的 维 上 复制 值 ， 扩 充 数 组 的 一 个 或 多 个 维 。 由 于 扩充 是 部 分 归 约 
的 一 个 有 效 逆转 〈 因 而 对 数组 大 小 会 起 到 与 部 分 归 约 截然 相反 的 效果 ) ， 因 此 扩充 具有 与 之 相 
似 的 符号 ， 有 : 


[1..m l..n] B:=>>[1,1..n] C; 


使 用 C 中 第 1 行 的 副本 填充 数组 B， 对 于 mm = 3 和 n = 4， 一 个 显而易见 的 例子 是 : 
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[1..3, 1..4] 7765 = >>[1，1..4] 7765 


7765 
7765 | 
# 
与 部 分 归 约 类 似 ， 所 要 扩充 的 维 由 源 区 域 与 目标 区 域 之 间 的 不 同 之 处 示 出 。 
当然 ， 扩 充 能 应 用 到 任意 维 ， 包 括 第 2 维 ， 如 
[1..m 1..n] Cz=>>[1..m,1] D; 
这 可 以 通过 一 个 例子 加 以 说 明 ， 对 于 = 3 和 n = 4, 
[1..3，1..4] 12121212 全 >>[1..3,1] 12 
了 


16 16 16 16 6 
0000 0 


此 外 ， 使 用 复制 值 也 可 以 只 扩充 一 维 上 的 某 个 部 分 。 
8.5.3 扩充 的 原理 


扩充 的 目的 是 什么 ， 为 什么 要 复制 值 ? 扩充 是 必须 的 ， 因 为 逐个 元 素 的 操作 符 假设 它们 
的 操作 数 有 着 相同 的 维度 ， 因 而 这 些 操作 符 只 使 用 单个 区 域 为 它们 的 多 个 数组 操作 数 说 明 索 
引 。 例 如 ， 假 设 我 们 希望 按照 矩阵 第 2 列 中 的 值 ， 成 比例 地 扩 缩 矩阵 中 的 每 一 列 。 由 于 算 阵 是 
2 维 的 ， 列 在 概念 上 是 1 维 的 ， 因 此 我 们 复制 列 的 值 以 产生 数组 的 第 2 维 。 如 此 ， 这 两 个 数组 就 
能 以 逐个 元 素 的 方式 进行 除法 操作 。 为 此 可 以 写成 ， 

[1..m 1..n] Br=B/(>>[1..m,2] B); 

圆 括 号 中 的 表达 式 用 第 2 列 的 n 个 副本 构成 m x n 的 数组 ,该 语句 的 操作 结果 是 数组 中 每 一 
列 的 值 都 使 用 第 2 列 的 值 按 比例 进行 了 扩 缩 。 假 设 m = 3 和 n = 4， 则 有 : 


[1..3, 1..4] 3.00 1.00 4.00 1.00 «& 3141/1111 
0.25 1.00 0.25 1.00 1414 4444 
1.50 1.00 0.50 0.00 3210 2222 


REBREZHLRS Hl, MERA ETENA HRA, ERATARA, 
在 本 例 中 ， 每 个 进程 处 理 一 列 。 因 此 扩充 操作 是 相当 高 效 的 ， 它 有 最 小 的 数据 移动 。 因 而 当 
访问 扩充 数组 的 值 时 ， 会 有 相当 好 的 局 部 性 。 


8.5.4 数据 操作 举例 


假设 一 个 数据 集合 由 针对 亚 个 对 象 的 "个 观测 数据 所 组 成 ， 比 如 一 天 中 消耗 的 匣 啡 杯 数 。 
我 们 可 以 使 用 一 个 维 为 [1..m,0..n] 的 数组 D 来 表示 这 样 的 数据 ， 此 处 数组 被 给 予 了 一 个 额外 的 
第 0 列 来 记录 摘要 (summary) 数据 。 现 在 考虑 在 这 些 数据 上 进行 一 些 示 例 性 的 计算 。 

要 计算 任意 一 天 任意 对 象 所 消耗 的 最 多 咖啡 杯 数 ， 即 是 在 整个 数组 的 数据 部 分 上 进行 
max-reduce (最 大 归 约 ) 操作 。 

{l..m, 1..n] most := max<<D; -- 计 算 最 高 分 值 

变量 most 是 一 个 标量 。 

每 个 对 象 的 最 大 值 即 是 各 行 部 分 归 约 的 结果 ， 我 们 将 其 存储 在 第 0 列 中 

[l..m, 0] D:=max<<[1l..m,1..n] D; ~- 记 录 单 独 的 最 大 值 

该 计算 产生 了 一 列 的 值 。 

为 了 确定 是 否 有 不 喝 啤 啡 的 人 ， 我 们 在 摘要 列 中 检查 0 的 个 数 ， 即 在 该 列 上 计算 or-reduce 
(或 归 约 ): 
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[1..m, 0] tFans:=|<<(D=0); -- 有 人 不 喜欢 喝 咖 啡 吗 ? 

变量 tFans 是 一 个 标量 。( 当 然 ， 一 个 简单 的 and-reduce (与 归 约 ， 符 号 为 &<<D) 也 能 
作用 ， 但 那样 会 不 太 容易 理解 。) 

在 所 有 人 都 喝 咖啡 的 情况 下 ， 我 们 通过 在 数组 上 横向 扩充 第 1 列 ， 然后 用 该 结果 除数 据 数 
组 ， 可 将 每 个 人 蝎 喇 啡 的 习惯 量 相对 于 他 们 喝 咖啡 最 多 那天 的 量 按 比例 缩小 到 范围 [0,1]， 

if !tFans then 

[1..m 1..n] D:=D/(>>[1..m,0] D); ~- 用 最 大 值 缩小 

end; 

最 后 来 确定 在 这 项 研究 中 ， 每 个 人 达到 他 (或 她 ) 喝 咖 啡 最 大 量 的 天 数 百分比 。 首 先 将 
整个 数据 数组 与 1 进行 比较 ， 然 后 使 用 加 法 操作 部 分 归 约 每 一 行 ， 以 获得 每 个 人 达到 最 大 量 天 
数 的 计数 ， 最 后 将 结果 除 以 n。 

[1..m, 0] Dz:=100*(+<<[1..m,1..n](D=1))/n; -- 达 到 最 大 量 天 数 所 占 的 百分比 

一 些 程序 员 可 能 不 希望 使 用 第 0 列 来 保存 摘要 值 ， 而 是 愿意 所 声明 的 数据 集合 有 更 适宜 的 
维 [1.m, 1.n]， 并 用 一 个 单独 的 Score (分 数 ) 数组 [1..m,1] 来 保存 摘要 结果 。 当 然 这 需要 Score 
数组 是 二 维 的 ， 因为 它 会 在 一 些 涉 及 2 维 数组 D 的 表达 式 中 出 现 。 车 使 用 这 种 方式 ， 则 之 前 的 
计算 就 相应 地 变 为 ， i 





[1..m,1..n] most :=max<<D; 
[1..m, 1] Score z=max<<[1..m, 1..n] D; 
[1..m, 1] tFans :=|<<(Score=0); 
if !tFans then 
[l..m,1..n] D :=D/(>>[1..m, 1] Score); 
end; 
[1..m 1] Score 2=100*(+<<(1..m,1..n](D = 1))/n; 


借助 这 种 计算 ，ZPL 程 序 员 能 完成 常规 的 数据 操作 ， 并 能 在 保持 给 定 秩 不 变 的 情况 下 ， 在 
不 同 数 据 大 小 之 间 来 回 切 换 。 


8.5.5 扩充 区 域 


在 我 们 之 前 的 例子 中 ， 变量 Score 的 使 用 说 明了 我 们 在 使 用 ZPL 时 的 一 个 奇异 特性 。 虽 然 
在 第 一 个 解决 方案 中 将 摘要 列 置 于 第 0 列 的 位 置 是 有 意义 的 ， 但 为 什么 必须 要 指定 数组 Score 
将 其 第 2 个 索引 设 为 1， 它 可 以 是 0、9 或 na 吗 ? 答案 是 肯定 的 。 这 个 决定 对 于 存储 器 分 配 的 真正 
后 灯会 在 稍 后 解释 ， 现 在 我 们 可 以 认为 这 种 选择 通常 是 随意 的 ， 为 了 了 解 这 种 随意 性 ， 我 们 
注意 到 在 数组 Score 上 的 一 个 操作 是 扩充 ， 即 在 所 有 列 的 位 置 上 复制 它 本 身 。 

ZPL 提 供 了 扩充 维 的 概念 ， 在 区 域 表 达 式 中 用 星 号 (*) 表示 。 扩充 维 提示 我 们 无 需 关 心 
索引 是 什么 ， 因 为 该 维 中 所 有 的 值 都 是 相同 的 。 因 此 上 例 中 ， 定义 摘要 数组 的 最 佳 方式 应 为 
如 下 所 示 : 


var Score : [l..m, *] float; 
这 说 明 数 据 在 第 2 维 上 扩充 。 据 此 ， 之 前 例子 中 最 后 4 条 语句 就 变 成 了 ， 
[1..m *] Score s=max<<[l..m, 1..n] D; 


[l..m, *] tFans :=|<<(Score=0); 
if !tFans then 
(1..m,1..n] D :=D/Score ; 
end; 
{1..m, *] Score 2=100*(+<<[1..m,1..n](D=1))/n; 
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无 需 在 第 3 行 扩充 Score， 因 为 该 数据 早已 被 声明 为 由 扩充 维 的 性 质 进行 扩充 。 因 此 ， 已 
经 存在 逐个 对 应 D 中 第 2 维 上 n 个 元 素 的 值 。 那 么 Score 在 第 2 维 上 会 有 多 少 个 元 素 ” 具 有 任意 所 
需 索引 的 任意 所 需 数 均 可 以 。Score 的 值 用 图 形 的 方式 描述 如 下 ， 

eea Viy Vy Vig TY 

y ye ye vp yp 

tera Vgs Vgs V3 Vases 

sera Vp Vp Yp Var oe 

因此 Score 能 匹配 第 2 维 为 任意 大 小 的 数组 。 

基于 不 应 要 求 程序 员 指定 超出 他 们 所 能 的 原则 ， 扩充 维 实 乃 明智 之 举 。 但 使 用 它 还 有 另 
一 个 重要 原因 ， 即 扩充 维 能 帮助 编译 器 使 用 高 效 的 数据 表示 (以 避免 完整 的 数据 复制 ) 和 高 
效 的 通信 协议 (多 播 通 常 是 有 可 能 的 )。 因 此 ， 选用 扩充 维 通常 会 比 随便 选用 某 个 压缩 索引 值 
要 好 很 多 。 


8.5.6 EHR 


为 了 应 用 本 小 节 中 提 到 的 思路 ， 考 虑 计算 两 个 秽 密 矩阵 的 乘积 ，C=AB， 其 中 A 是 一 个 m xn 
的 和 矩阵， 而 B 是 一 个 n xz 的 矩阵 。 在 串 行程 序 设计 语言 中 ， 进行 此 类 计算 最 简单 的 方法 是 使 用 
[BREE : 

for(i=0; i<m; it+) 


{ 
for(j=0; j<p; j++) 
{ 


C(i,j]=0; 
for(k=0; k<n; k++) 
{ 
Cli, j]+=A[i,k]*B[k, j]; 
} 
} 
} 


最 里 面 的 循环 计算 点 积 ， 即 A 的 第 i 行 乘 以 B 的 第 j 列 ， 然后 归 约 产生 乘积 C[ij]。 

虽然 这 段 代码 很 简单 ， 但 这 并 不 是 思考 并 行 矩阵 乘积 的 正确 方式 ， 事实 上 ，van de Geijn 
和 Watts 认 为 ， 分 别 进 行 点 积 计算 ， 即 A 的 一 行 乘 以 B 的 一 列 ， 实际 上 是 一 种 落后 的 方法 。 在 他 
们 的 SUMMA (Scalable Universal Matrix Multiplication Algorithm， 可 扩展 通用 矩阵 操作 算法 ) 
方法 中 ， 他 们 将 初始 化 和 k- 循 环 放 到 外 面 ， 而 将 所 有 点 积 的 所 有 第 k 项 高 效 地 同时 计算 完成 。 
这 种 逆向 思维 的 方法 产生 了 特别 有 效 的 算法 ， 因为 它 使 用 了 规则 通信 的 模式 。 它 也 是 最 简单 
的 ZPL 和 矩阵 乘 算 法 ， 因 为 它 利 用 了 扩充 。 

为 了 理解 SUMMA 的 核心 思想 ， 以 及 为 什么 扩充 是 它 的 基础 。 注 意 到 在 3 x 3 矩阵 C=A*B 
的 计算 中 ， 其 计算 结果 的 前 2 列 为 如 下 所 示 ， 

AB TAB AB CaS Augie T ADE Ati 

C31 = Ag XB) 1 + 432xB21 + A33XB3 C3) = Ay xB, + A3, 2XB, 2 十 433XB3 ... 

我 们 看 到 这 些 方程 式 中 第 1 项 的 计算 ， 可 以 通过 横 跨 一 个 3 x 3 数组 复制 A 的 第 一 列 ， 纵 跨 
一 个 3 x 3 数组 复制 8 的 第 一 行 ， 也 即 是 说 ， 扩充 A 的 第 1 列 和 B 的 第 1 行 ， 然后 相 乘 对 应 的 元 素 。 
第 2 项 的 结果 可 以 通过 复制 A 的 第 2 列 和 B 的 第 2 行 ， 然后 相 乘 得 到 。 以 此 类 推 第 3 项 。 
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用 ZPL 实 现 的 SUMMA 算 法 如 图 8-2 所 示 。 这 个 程序 以 明显 的 变量 声明 开始 。 变 量 Col 用 来 


扩充 A 的 列 ， 变 量 Row 用 来 扩充 B 的 行 。 在 过 程 的 主体 部 分 中 ， 整 个 计算 在 结果 数组 C 的 维 环 
境 中 进行 。 结 果 数 组 初始 化 为 0， 然 后 计算 进入 k- 循 环 以 处 理 点 积 的 n 个 项 。 


double; 
double; 
double; 
double; 
double; 
integer; 


procedure MM(); 


[1..m, 1..p] begin 

C:=0; 

for k:=1 to n do 
[1..m, *] Col:=>> [l..m, k] A; 
{*, 1..p] Row:=>> [k, l..p] B; 

C+=Col*Row; 
end; 
end; 





图 8-2 使 用 ZPL 实 现 SUMMA 和 矩阵 乘 算法 


在 循环 的 主体 部 分 中 ，A 的 下 一 列 横向 扩充 Col， 而 B 的 下 一 行 纵向 扩充 Row。 在 循环 的 最 
后 一 条 语句 中 ，2 个 扩充 数组 的 对 应 元 素 相 乘 并 累加 到 结果 数组 C。 随 后 计算 点 积 的 下 一 项 。 

注意 完全 不 必要 使 用 临时 数组 Col 和 Row 。 使 用 扩充 操作 符 之 后 ， 过 程 的 主体 部 分 可 重 写 
为 如 下 所 示 : 


{l..m, 1..p] begin 
C:=0; 
for k:=1 to n do 
C +=(>>[1l..m, k] A )*(>>[k, 1..p] B); 
end; 
end; 


实际 上 ， 编 译 器 仍然 会 为 上 述 代码 生成 对 应 于 Col 和 Row 的 临时 数组 ， 但 这 毕竟 减少 了 程 
序 员 几 行 的 输入 。SUMMA 算 法 不 仅 极其 高 效 而 且 很 容易 编写 。 

代码 规范 8.5 总 结 了 对 部 分 归 约 和 扩充 的 限定 。 

代码 规范 8.5 ZPL 中 部 分 归 约 和 扩充 操作 符 的 要 求 

部 分 归 约 (<<) 和 扩充 (>>) 

这 两 个 操作 都 需要 两 个 区 域 ， 源 区 域 (作为 一 个 操作 数 ) 和 目标 区 域 (作用 到 语句 )， 
如 下 例 所 示 ; 


{1, 1..5] ..。+<<[1..3，1..5] A ...// 归 约 


[1..3, 1..5] ... >>[1, 1..5] A ...// 扩充 

对 于 两 个 区 域 中 的 每 一 维 ， 索 引 的 范围 或 完全 一 致 ， 或 其 中 一 个 是 压缩 维 (单个 值 )。 
对 于 部 分 归 约 ， 根 据 目 标 区 域 中 压缩 维 的 提示 ， 组 合 操作 数 的 元 素 并 赋值 给 压缩 维 。 对 于 
扩充 操作 ， 根 据 源 区 域 中 压缩 维 的 提示 ， 元 素 跨 压缩 维 的 范围 进行 复制 。 





8.6 用 重 映 射 操作 重 排 数据 
ZPL 鼓 励 在 本 地 数据 上 进行 计算 ， 但 数据 通常 必须 经 过 移动 才能 变 成 本 地 的 。 重 映射 
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(remap) 操作 符 能 完成 数据 的 自主 性 重 构 ， 包 括 改 变 秩 。 在 开始 重 映射 操作 符 的 学 习 之 前 ， 
我 们 必须 先 介绍 索引 数组 (index array) 的 概念 。 
8.6.1 索引 数组 


为 了 便于 程序 设计 ，ZPL 提 供 了 一 组 预先 定义 的 常数 数组 ， 其 内 容 保存 了 相关 区 域 的 索引 
值 。 这 些 数组 被 称 为 索引 数组 ， 记 为 index<dimension number>， 如 index1，index2，index3 等 


等 。 例如 : 

{1..3,1..3] ... Indexl ... & 1 1 1 
2 2 2 
3 3 3 

是 第 1 维 索引 的 数组 。 再 例如 
{1..3,1..3] ... Index2 ... = 1 2 3 
1 2 3 
”1 2 3 


是 第 2 维 索引 的 数组 。 使 用 索引 数组 的 唯一 限制 是 语句 的 区 域 要 有 足够 的 维 数 。 

索引 数组 之 所 以 能 高 效 地 实现 ， 是 因为 它们 的 值 在 编译 好 的 代码 中 已 然 可 用 ， 索 引 数 组 
在 ZPL 程 序 中 经 常会 用 到 ， 例 如 

[1..n，1..n] Diag:=Indexl=Index2; 
用 来 构成 一 个 对 角 线 上 元 素 均 为 1 的 数组 ， 而 


[1..n, 1..n] RMO:=n*(Indexl-1)+Index2; 


用 来 计算 2 维 数组 元 素 以 行为 主 的 顺序 索引 。 索 引 数 组 也 常 和 重 映射 操作 符 一 起 使 用 。 
8.6.2 ERS 


重 映射 操作 符 以 符号 # 表 示 ， 定 义 了 数组 的 重 排 。 它 需要 两 个 参量 ， 一 个 源 数 组 和 一 个 重 
映射 数组 。 重 映射 数组 含有 定义 了 重 排序 的 索引 。 重 映射 操作 符 有 两 种 形式 ， 称 为 聚集 
(gather) 和 散射 (scatter), 

聚集 (gather)。 如 果 重 映射 操作 符 出 现在 等 式 右 边 ， 即 作为 一 个 表达 式 ， 则 重 映射 就 说 
明了 一 个 聚集 操作 ， 结 果 数 组 将 根据 重 映射 数组 的 提示 ， 从 源 数组 中 选 出 值 。 例 如 ， 假 设 A 和 
P 都 声明 在 区 域 [1..7] 上 ， 且 有 值 


As ddeeorr 
Pe 5613742 


则 在 语句 
B=A#[P] 
中 ，A 是 源 数组 ，P 是 重 映射 数组 ， 语 句 赋 给 B 的 值 是 
Be ordered 
因为 B 的 第 1 个 元 素 将 是 A 的 第 5 个 元 素 ，B 的 第 2 个 元 素 将 是 A 的 第 6 个 元 素 ， 以 此 类 推 。 
散射 〈scatter) 。 如 果 重 映射 操作 符 出 现在 赋值 语句 左边 ， 则 重 映射 操作 符 将 完成 散射 操 
作 ， 即 源 数 组 的 值 将 根据 重 映射 数组 所 说 明 的 顺序 ， 放 置 到 结果 数组 中 ， 例 如 ， 语 名 


C#[P]=A 
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Ceererddo 
即 A 的 第 1 个 元 素 将 被 放置 到 C 的 第 5 个 元 素 中 ， 依 次 类 推 。 
重 映射 数组 经 常会 使 用 基于 索引 数组 值 的 表达 式 ， 例 如 
A#[ 8-Index1] 
将 源 数组 逆序 ， 因 为 重 映射 数组 包含 了 降序 的 索引 值 ， 有 : 
rroeedd<>ddeeorr#[7654321] 
为 了 拼写 ordered 的 逆序 ,我们 可 写作 A#[P#[8-Index1]]。 
重 映射 数组 中 重复 的 值 。 重 映射 数组 中 的 值 无 需 唯一 ， 虽 然 绝 大 多 数 情况 下 会 要 求 唯一 。 
例如 ， 豪 集 A#[1111111]， 即 为 
ddddddd<>ddeeorr#{ 1111111] 
就 是 一 个 令 人 厌烦 (ERR) 的 方式 ， 用 以 复制 A 的 第 1 个 元 素 。 对 于 散射 ， 这 个 问题 就 更 加 
古怪 了 。 因 为 在 散射 赋值 中 ， 重 映射 数组 中 的 一 个 索引 值 可 能 会 多 次 出 现 ， 这 将 导致 赋值 的 
不 同 顺序 ， 从 而 产生 不 可 预测 的 结果 ， 因 此 散射 形式 为 A#[1111111]:=A， 有 
?deeorr<»>ddeeorr#[1111111] 


会 将 d,。，9% 或 r 中 的 某 一 个 分 配 到 第 1 个 索引 的 位 置 ， 但 到 底 是 哪 一 个 却 无 法 确定 。 不 同 的 并 


行 执行 会 产生 不 同 的 结果 。 

离 维 。 高 维 数组 需要 在 方 括 号 中 有 多 个 重 映射 数组 ， 其 中 第 i 维 的 数组 说 明了 第 维 的 索引 
值 ， 例 如 ,在 

B#[C,D] 
中 ，B 中 元 素 的 重 排 ， 将 使 用 C 作 为 第 1 维 的 重 映射 数组 ， 而 使 用 DD 作为 第 2 维 的 重 映射 数组 
例如 


[l..n,1..m] Btranspose:=B#[Index2, Index1]; 


是 计算 数组 转 置 的 标准 方式 ， 因 为 这 2 维 的 索引 互相 交换 了 。 若 Btranspose 在 区 域 [1..n,1..m] 上 
FA, Hm = 3 和 n = 2， 则 该 数组 的 转 置 如 下 所 示 ， 
ace = ab#t123, 111) 
bdf cd 123 222 
ef 
该 聚集 操作 是 清晰 的 ， 结 果 中 的 项 i，j 源 自 操作 数 中 Cj，Di 的 位 置 (参见 代码 规范 8.6)。 
代码 规范 8.6 ZPL 中 重 映射 操作 符 的 需求 


重 映射 
数组 通过 重 映射 操作 符 (#) 进行 重 构 ， 它 需要 2 个 操作 数 ， 欲 重 构 的 数组 ， 以 及 方 括 
号 内 对 应 于 结果 中 每 一 维 的 数组 。 因 此 重 映射 2 维 数组 A 可 写成 A#[C,D]， 而 
A#[Index2,Index1] 可 用 来 计算 A 的 转 置 。 重 映射 有 两 种 形式 : 
聚集 用 于 赋值 语句 的 右边 ， 结 果 中 的 项 i，j 源 自 操作 数 中 Ci;，Di; 的 位 置 。 


aces ab#rl23, 111) 
bdf cd 123 222 


ef 
逆 射 用 于 赋值 语句 的 左边 ， 操 作 数 中 的 项 i，j 将 进入 到 结果 中 Ci;，Di 的 位 置 。 


eca #[111,321] 
fdb 222, 321 
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8.6.3 排序 举例 

重 映射 在 ZPL 中 会 经 常 使 用 到 。 一 个 绝 佳 的 例子 就 是 用 它 来 重 排 2 维 矩阵 的 行 。 我 们 将 在 
本 小 节 中 介绍 这 种 计算 。 

回忆 在 数据 操作 这 一 小 节 中 曾 提 到 “ 喝 咖啡 的 人 ”的 数据 数组 。 该 数组 在 区 域 [1..m,0..n] 
EEX, 记录 了 m 个 人 在 n 天 中 喝 掉 的 咖啡 杯 数 其 中 第 0 列 用 做 摘要 统计 。 例如 ， 我 们 知道 能 
通过 如 下 的 部 分 归 约 ， 计 算 参 与 者 喝 咖啡 的 平均 消耗 量 : 

[1l..m, 0 ] Ds= (+<<[1..m, 1..n] D)/n; 
现在 假设 我 们 要 根据 他 们 的 平均 消耗 量 ， 从 小 到 大 排序 喝 咖 啡 的 人 。 可 以 根据 第 0 列 的 值 重 排 
数组 D 的 行 来 解决 这 个 问题 ， 这 意味 着 需要 基于 第 0 列 来 计算 每 个 喝 咖 啡 的 人 的 排名 。 我 们 的 
策略 是 将 这 个 任务 划分 成 3 个 部 分 : 

1. 使 用 扩充 操作 符 做 全 比较 ， 并 计算 排名 。 

2. 使 用 归 约 操作 符 找 出 排名 。 

3. 使 用 重 映射 操作 符 将 数组 的 行 以 正确 的 顺序 排列 。 

为 方便 起 见 ， 我 们 假设 平均 值 是 唯一 的 ， 但 其 实处 理 有 相同 值 的 情况 也 很 容易 。 

全 比较 的 排名 算法 。 为 了 将 序列 中 每 个 元 素 与 序列 中 其 他 所 有 元 素 做 比较 ， 我 们 用 保存 
在 第 0 列 的 平均 值 对 2 维 数组 进行 扩充 ， 这 给 出 了 比较 所 需 的 其 中 一 个 操作 数 。 为 了 获得 另 一 
个 操作 数 ， 转 置 该 数组 ， 并 在 另 一 维 上 进行 扩充 。 两 个 数组 逐个 元 素 比较 所 产生 的 结果 将 放 
置 于 一 个 位 (bit) 数组 中 。 

从 以 下 声明 开始 : 

Repc: [l..m, * ] float; -~ 复制 列 的 临时 位 置 

RepR: [*, l..m ] float; -- 复 制 行 的 临时 位 置 

然后 用 数组 D 中 第 0 列 的 平均 值 扩充 这 两 个 数组 。 对 于 RepC， 扩 充 是 直截了当 的 ， 因 为 这 
两 个 数组 是 完全 相 适 应 的 。 对 于 RepR 的 第 0 列 ， 就 必须 先 转 置 成 行 ， 然后 才能 进行 扩充 。 


[l..m, * ] RepC:=>> [1..m, 0] D; -~ 复制 平均 值 列 
[*, 1..m ] RepR:=>> [*, 1..m] D#[Index2, 0]; -- 复 制 平均 值 作为 行 
完成 全 比较 则 是 件 简单 的 事 。 

[1..m, l..m ] ...RepC >= RepR; -- 构 建 一 个 位 数组 


显而易见 ， 必 须 很 谨慎 地 选择 合适 的 关系 操作 符 。 在 对 应 于 最 小 项 的 行 中 ，>= 操 作 符 将 
只 设置 1 位 (bit) ， 而 在 包含 最 大 项 的 行 中 ， 需 要 设置 所 有 的 位 (bit), 

找 出 排名 。 为 了 找 出 喝 徊 啡 的 人 的 排名 ， 我 们 使 用 部 分 归 约 ， 简 单 地 在 各 行 中 累加 1 的 个 
数 。 这 将 产生 一 个 结果 列 ， 但 由 于 将 要 在 重 映射 中 使 用 该 结果 ， 我 们 要 的 就 不 止 是 一 个 列 而 
已 ， 而 是 一 个 扩充 了 排名 的 数组 。 所 以 应 包括 如 下 声明 

var Rank : [l..m, *] integer; 

它 使 第 2 维 成 为 了 一 个 扩充 维 。 
使 用 变量 rank 所 声明 的 操作 符 ， 我 们 能 在 部 分 归 约 后 执行 扩充 ， 

[l..m, *] Rank:= >> [1..m, *] (+<< [1..m, 1..m] (RepC >= RepR)); 
这 产生 了 期 待 的 结果 。 

使 用 排名 数组 进行 排序 。 现 在 ， 通 过 使 用 Rank 中 的 值 ， 我 们 能 使 用 重 映射 操作 符 对 数组 
D 的 行进 行 重 排 。 
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[1..m, 0..n] D #[Rank, Index2] :=D; 


这 根据 第 0 列 中 的 值 对 行进 行 了 排序 。 最 终 的 程序 如 图 8-3 所 示 。 


var Repc : [l..m, *] float;  -- 被 复制 列 的 临时 数组 
var RepR : [*, 1..m] float; ~- 被 复制 行 的 临时 数组 
var Rank : [1..m, *] integer; -- 被 复制 的 顺序 


procedure rankingData(); 
begin 
9 {1..m, 0] D :=(4+<<[1..m,1..n] D)/n; -计算 出 平均 值 
[1..m,*] Repc :=>>[1..m, 0] D; -- 复 制 平 均值 列 
[*,1..m] RepR :=>>[*, 1..m] D#{Index2, 0]; -- 以 行 方式 复制 平均 值 
(1..m, *] Rank r=>>[1..m,*](+<<[1..m,1..m](RepC >= RepR)); 
-- 计 算 顺 序 
(hem 0..n] D#[Rank, Index2} := D; -- 重 排序 
end; 





图 8-3 排序 喝 咖 啡 者 数据 的 ZPL 程 序 


重 排序 操作 是 一 个 标准 的 ZPL 范 式 。 第 一 次 接触 时 ， 似 平 会 感觉 有 些 复杂 ， 但 第 二 次 再 接 
触 时 ， 尤 其 是 搭建 好 框架 之 后 ， 就 很 快 会 觉得 这 很 自然 。 


8.7 ZPL 程 序 的 并 行 执行 


介绍 完 ZPL 的 主要 特征 之 后 ， 接 下 来 要 介绍 该 语言 特有 的 性 能 模型 。 但 在 此 之 前 ， 我 们 还 
需要 先 理解 ZPL 的 并 行 执行 模型 。ZPL 程 序 的 并 行 性 是 从 它 的 数组 语言 语义 继承 而 来 的 。 数 组 
中 所 有 的 元 素 都 是 同时 操作 的 ， 因 此 数组 能 分 发 到 多 个 进程 上 ， 并 发 地 进行 操作 。 


8.7.1 编译 器 的 职责 
ZPL 编 译 器 将 数组 语句 转换 成 循环 幅 套 例如， 以 下 语句 : 


[R] TW:=(TW&NN=2) | (NN=3); 
将 被 翻译 为 以 下 等 价 的 C 语 言 代码 ， 
for(i=myLol-1; i<myHil; i++) 


for(j=myLo2-1; j<myHi2; j++) 


{ 
TWLi,jJ=(TWLi,j)S&NN[i,5]==2)||(NN[i,j]== 3); 


} 

} 

此 处 我 们 假设 循环 的 各 边界 ， 如 myLo1 等 等 ， 已 经 对 每 个 进程 都 已 正确 地 初始 化 。 若 使 
用 @ 操 作 符 ， 则 编译 器 会 在 循环 娱 套 前 插入 必要 的 通信 。 车 是 归 约 操作 符 ， 则 将 翻译 为 类 似 
于 第 5 章 中 给 出 的 通用 归 约 代码 ， 以 此 类 推 。 

为 了 生成 高 效 的 代码 ， 编 译 器 进行 了 诸多 优化 ， 包 括 以 下 措施 : 

CRA (或 合并 ) 了 循环 媒 套 。 通 过 将 数组 的 临时 变量 转换 成 标量 的 临时 变量 ， 能 极 大 

地 减少 对 存储 器 的 需求 。 

* 它 能 为 同一 对 进程 间 的 消息 组 合 通信 操作 。 

* 它 能 重生 通信 和 计算 。 
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“ 它 能 有 效 实现 扩充 数组 。 因 为 被 扩充 维度 的 所 有 元 素 都 是 相同 的 ， 因 此 每 个 进程 只 需要 
一 个 值 。 

* 它 能 有 效 实现 索引 数组 。 因 为 编译 器 已 经 对 在 循环 嵌 套 上 进行 迭代 的 数组 索引 作 了 描述 ， 
因此 无 需 再 用 额外 的 存储 器 来 表示 索引 数组 。 

除 此 之 外 ， 编 译 器 还 使 用 了 许多 其 他 更 加 复杂 的 优化 ， 包 括 标准 的 串 行 优化 。 

本 小 节 的 余下 部 分 将 描述 ZPI 数据 分 布 的 细节 ， 它 是 理解 ZPL 性 能 模型 的 关键 所 在 。 


8.7.2 指定 进程 数 
因为 ZPL 程 序 中 的 并 行 性 是 隐 式 的 ， 可 供 使 用 的 物理 并 行 总 数 需 要 在 程序 之 外 指定 。 尤 其 


是 ， 当 程序 在 命令 行 上 调用 时 ， 用 户 会 指定 进程 的 逻辑 网 格 ， 比 较 典型 的 是 2 维 网 格 。 例 如 我 
们 可 能 希望 指定 16 个 进程 在 逻辑 上 排 成 2 行 8 个 ， 即 使 用 一 个 2 x 8 的 进程 网 格 。 


8.7.3 为 进程 分 配 区 域 


ZPL 中 ， 为 进程 分 配 数组 的 第 一 步 就 是 为 进程 分 配 区 域 。 程 序 的 各 区 域 是 分 布 式 的 ， 因 此 
对 于 所 有 的 区 域 ， 相 同 索 引 将 分 配 到 相同 进程 上 。 为 了 达到 这 个 效果 ， 考 虑 将 所 有 区 域 到 加 
起 来 ， 使 得 它们 的 索引 能 够 对 齐 ， 如 图 8-4 所 示 。 通 过 这 种 又 加 ， 它 们 的 边界 区 域 ( 即 包含 所 
有 从 加 区 域 索引 的 最 小 区 域 ) 就 可 计算 出 来 。 











图 8-4 边界 区 域 。 程 序 中 使 用 的 区 域 是 从 加 的 ， 因 此 它们 的 索引 可 以 对 齐 ， 黑色 矩阵 在 所 有 区 域 中 都 有 
相同 的 索引 。 一 旦 对 章 之 后 ， 边界 区 域 就 是 能 包含 所 有 和 登 加 区 域 索 引 的 最 小 区 域 


一 旦 计算 出 来 后 ， 边 界 区 域 就 可 以 分 配 到 所 说 明 的 进程 网 格 中 。 这 种 分 配 是 一 种 块 分 配 ， 
以 使 每 一 维 都 尽 可 能 的 平衡 。 这 些 索 引 以 一 种 显而易见 的 方法 分 配 到 所 索引 的 进程 上 以 行 
优先 的 顺序 ， 从 低 索 引 到 高 索引 。 因此 可 将 图 8-4 中 的 边界 区 域 分 配 到 一 个 2 x 2 的 进程 网 格 上 ， 
如 图 8-5 所 示 。 我 们 看 到 对 齐 所 有 索引 的 区 域 分 配 决策 ， 只 能 产生 一 个 次 优 的 分 配方 案 . 不 过 这 
种 效果 的 影响 通常 较为 有 限 ， 且 不 常 出 现 。 作 为 另外 一 个 例子 ， 图 5-9b 中 通过 说 明 一 个 16x 1 
的 进程 网 格 实现 了 16 x 16 的 区 域 分 配 。 
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a) b) c) a 


图 8-5 边界 区 域 的 块 分 配 ，a) 边界 区 域 ，b) 使 用 平衡 分 配 进行 分 割 ; c) 分 配 一 组 索引 ，d) 贡献 区 域 的 
索引 由 那些 索引 继承 而 来 


8.7.4 数组 分 配 


给 出 了 进程 的 区 域 分 配 之 后 ， 数 组 分 配 就 顺理成章 了 ， 因 为 数组 继承 了 它们 所 声明 区 域 的 
分 配 。 和 C 语 言 一 样 ， 数 组 的 存储 器 是 行 优先 的 ， 当 然 编译 器 能 在 需要 时 分 配额 外 的 重 又 区 域 。 

例如 ， 数 组 

var B, C, D : [1..8, 1..8] float; 

分 配 到 一 个 2 x 2 进程 网 格 。 它 会 将 子 区 域 [1..4, 1..4] 分 配 到 Po， 这 意味 着 数组 B，C 和 D 的 
相同 索引 也 将 分 配 到 Po， 将 子 区 域 [1..4, 5..8] 分 配 到 P1， 以 此 类 推 。 


8.7.5 标量 分 配 
非 数组 变量 是 元 余 分 配 的 ， 即 各 进程 都 有 所 有 标量 的 一 个 副本 。 因 此 标量 计算 ， 比 如 


is=itl, 
是 由 各 进程 元 余 计 算 的 。 这 种 元 余 消 除了 通信 (回忆 第 2 章 中 随机 数 的 例子 ) 。 另 一 方面 ， 
标量 计算 也 不 是 通过 并 行 提高 性 能 的 源 由 。 


8.7.6 工作 分 派 


一 旦 数组 分 配 好 后 ， 工 作 分 配 就 能 很 容易 使 用 “ 谁 拥有 谁 计算 ”的 规则 确定 ， 即 每 个 进 
程 计 算 所 分 配 到 的 元 素 值 。 因 此 区 域 不 仅 声明 了 数组 语句 中 所 使 用 到 的 索引 ， 也 定义 了 执行 
真实 计算 的 进程 。 对 于 语句 

[1..8, 1..8] B:=C+D; 

进程 Po 会 使 用 C 和 D 的 本 地 元 素来 完成 B 的 子 区 域 [1..4, 1..4] 的 更 新 。 这 意味 着 ， 当 数据 在 
进程 间 平衡 得 很 好 时 ， 这 些 语句 的 工作 也 会 平衡 得 很 好 。 因 此 更 新 该 数组 的 工作 将 在 4 个 进程 
上 足够 平衡 地 分 配 ， 因 此 可 望 有 接近 于 4 的 加 速 比 。 

区 域 分 配 的 原则 ”对齐 区 域 的 策略 使 得 任意 区 域 的 索引 [i, j, …, k] 都 将 分 配 到 相同 进程 
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上 ， 以 此 确保 在 数组 上 执行 逐个 元 素 的 操作 时 ， 比如 A+B， 所 有 计算 对 于 进程 而 言 都 
是 本 地 的 ， 无需 通 信 。 


8.8 性 能 模型 


在 给 出 关于 区 域 、 数 组 和 工作 是 如 何 分 配 到 进程 的 描述 之 后 ， 会 很 容易 看 清楚 一 个 只 有 
逐个 元 素 计算 的 程序 是 如 何 并 行 执 行 的 ， 它 体现 了 完美 的 加 速 比 。 但 其 他 ZPL 结 构 呢 ?事实 
上 ， 它 们 几乎 同样 容易 理解 。 

ZPL 的 性 能 模型 基于 逐个 元 素 操作 规范 所 定义 的 代价 ， 再 加 上 某 些 操作 所 需 通信 开销 的 代 
价 ， 比 如 @- 访 问 和 重 映射 ， 它 们 都 需要 从 其 他 进程 中 获取 值 。 该 模型 基于 此 种 理念 ， 即 基本 
工作 和 通信 开销 这 两 个 代价 的 概念 ， 能 构成 对 任意 CTA 平 台 上 任意 算法 性 能 较 好 的 第 一 近似 
值 估计 。 该 模型 很 容易 使 用 ， 因 为 程序 员 能 根据 句法 规则 ， 确 定 代码 中 会 产生 通信 代价 的 位 
置 。 代 码 规范 8.7 对 这 些 代价 进行 了 扼要 的 总 结 

代码 规范 8.7 ZPL 性 能 模型 

ZPL 性 能 模型 规范 针对 的 是 最 差 情况 的 行为 。 除 了 计算 机 的 物理 特征 之 外 ， 实 际 的 性 

能 还 可 能 受到 x，P， 进 程 布局 以 及 编译 器 优化 的 影响 。 
语法 提示 示例 并 行 性 (P) 通信 开销 备注 


[R] 数 组 操作 [R]...A+B... S24, work/P 一 
@ 数 组 转换 . A @east... 一 1 个 点 对 点 只 发 射 “表面 ” 


<< 归 约 .+<<A... work/P+log P 2logP 个 点 对 点 扇 人 / 扁 出 树 
<< 部 分 归 约 .+<<[ JA... work/P+log P logP 个 点 对 点 

1 扫描 +i... work/P+log P 2logP 个 点 对 点 并 行 前 缓 树 
>> 扩 充 >>[]A... 一 维 中 的 多 播 数据 不 复制 
# 重 映射 -A#[I1,I2]... 一 2 个 全 体 对 全 体 (潜在 ) 通用 数据 重 构 





为 了 更 加 细致 的 观察 代价 模型 ， 我 们 考虑 以 下 操作 ， 

" @- 转 换 ， 操 作 数 上 的 @ 修 饰 符 表示 数据 会 从 相 邻 进程 传输 到 本 地 重 又 区 域 ， 但 只 有 边界 
元 素 才 会 被 传送 。 因 此 在 CTA 模 型 上 ， 对 于 全 部 边界 ， 这 些 点 对 点 通信 操作 通常 只 需要 
4 的 通信 时 延 。 

“<< 归 约 : 归 约 操作 符 使 用 Schwartz 算 法 将 数组 值 组 合成 一 个 标量 ， 随 后 用 广播 方式 将 该 
标量 值 分 发 回 给 所 有 进程 。 因 此 通信 模式 是 一 棵 组 合 树 ， 再 加 上 一 棵 广播 树 ， 每 棵 树 的 
高 度 最 多 为 logP， 因 而 会 产生 2 A log P 的 通信 代价 。 

"<< 部 分 归 约 : 部 分 归 约 延 用 了 完全 归 约 中 组 合 的 概念 ， 但 没有 广播 ， 且 限定 为 一 维 。 

* ll 扫描 : 扫描 操作 符 使 用 并 行 前 缀 操作 ， 因 此 会 2 次 遍历 高 度 为 logP 的 树 ，1 次 向 上 ，1 次 
向 下 ， 因 而 会 产生 2 A log P 的 通信 代价 。 

* >> 扩充: 扩充 操作 符 将 保存 的 值 分 发 到 其 他 进程 。 多 播 ( 即 对 于 进程 子 集 的 广播 ) 若 可 
用 ， 就 当 使 用 。( 使 用 特殊 硬件 通常 速度 会 很 快 ， 但 即便 没有 ， 广 播 也 能 使 用 树 结构 执 
行 ， 实 现 logP 的 并 发 传输 。) 扩充 操作 符 限 制 了 通信 复杂 性 ， 其 主要 特征 在 于 如 果 进 程 
在 多 维 上 分 配 ， 则 只 有 这 些 进程 的 一 个 小 子 集 能 楼 受 任意 扩充 。 

“# 重 映射 。 重 映射 操作 符 在 ZPL 中 是 最 昂贵 的 ， 因 为 它 需要 两 个 通信 周期 一 个 用 来 分 
发 通信 模式 ( 重 映射 数组 )， 另 一 个 用 来 分 发 数据 本 身 。 很 有 可 能 它们 都 是 全 体 对 全 体 
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的 通信 ， 这 意味 着 每 个 进程 都 有 可 能 与 其 他 每 个 进程 进行 通信 。ZPL 试 图 通过 优化 重 映 
射 来 减少 开销 : 这 些 例子 包括 ， 使 用 已 出 现 的 常数 参量 ， 比 如 在 转 置 (A#[Index2， 
Index1]) 中 ， 或 重用 上 次 重 映射 之 后 还 未 改变 的 重 映射 数组 。 
使 用 上 述 信息 ， 就 有 可 能 大 致 清楚 一 条 语句 将 如 何 执行 。 


8.8.1 应 用 实例 1， 生 命 游 戏 
编写 生命 游戏 的 程序 时 ， 我 们 会 关注 于 产生 正确 的 计算 ， 但 我 们 也 能 大 致 清楚 程序 将 如 
何 执行 。 请 回忆 其 主 计算 是 : 


20 [R] repeat 


21 NN:= TWénw+TWeno+TWéne+ 
22 TWewet TWeeat 
23 TWEswtTWesotTWese; 
24 TW:=(TW&NN=2 ) | (NN=3); 
25 until !(|<<TW); 


该 循环 主要 包含 了 三 部 分 计算 : NN 的 计算 ，TW 的 计算 和 循环 终止 检测 的 归 约 计算 。 下 
面 逐一 对 它们 进行 分 析 : 

“NN 的 计算 ; 该 语句 涉及 了 8 个 @- 转 换 操 作 和 之 后 的 本 地 计算 。 根 据 代 码 规范 8.7， 每 个 

@- 转 换 操 作 需 要 4 的 时 延 。 因 为 CTA 计 算 机 有 望 能 同时 执行 多 个 这 种 点 对 点 通信 ， 因 此 

我 们 会 付出 常数 级 的 通信 代价 再 加 上 本 地 计算 代价 。 

“TW 的 计算 : 该 语句 只 需要 在 数组 元 素 上 的 本 地 计算 ， 无 需 付出 通信 代价 。 

“或 归 约 : 循环 终止 表达 式 使 用 Schwartz 算 法 ， 需 要 24 log P 的 时 间 。 

此 外 ， 上 默认 的 块 分 配 会 实现 合理 的 工作 平衡 ， 这 意味 着 计算 的 加 速 比 是 P。 因 此 就 渐 近 性 
而 言 ， 随 着 "增加 ， 在 每 次 迭代 都 有 O(log P) 通 信 开 销 的 情况 下 ， 求 解 问 题 仍 将 继续 享有 完整 
的 加 速 比 ， 如 果 P 增 加 ， 通 信 开 销 的 增长 也 将 维持 在 适当 的 范围 内 。 


8.8.2 应 用 实例 2，SUMMA 算 法 
图 8-2 中 和 矩 阵 乘 的 算法 ， 其 主 计算 的 语句 如 下 所 示 : 


[1l..m, 1..p] begin 
C:=0; 
for k:=1 to n do i 
C+=(>>[1..m, k] A )*(>>[k, 1..p] B); 
end; 
end; 


如 果 忽 略 数组 C 一 次 性 初始 化 的 开销 ( 它 是 完全 并 行 的 ) ，z 次 迭代 的 各 次 选 代 循 环 均 有 2 
个 扩充 操作 ， 以 及 之 后 在 本 地 元 素 上 进行 的 乘 一 加 计算 。 与 之 前 一 样 ， 默 认 的 块 分 配 会 实现 
合理 的 平衡 工作 分 配 ， 因 此 乘 - 加 计算 会 完全 的 并 行 。 如 果 我 们 将 忆 个 进程 分 配 到 一 
个 VP xVP 的 网 格 中 ， 则 每 棵 多 播 树 实现 扩充 的 高 度 只 有 logP/2， 因 此 这 两 个 选 代 的 通信 开 
销 大 致 上 为 每 次 O(log P)， 这 使 得 它 成 为 一 个 高 效 的 矩阵 乘积 解决 方案 9 。 


O 这 种 分 析 可 用 于 比较 算法 。 最 早 宣 布 计算 模型 的 论文 比较 了 SUMMA 算 法 与 Canon 算 法 ,发现 SUMMA 更 佳 ， 
之 后 的 实验 亦 证 实 了 这 个 预测 。 


#o¢ ZPLAPKRUMASRABS 191 
OK LPL KMEAMABS 191 | 
8.8.3 性 能 模型 总 结 


基于 模型 如 何 描述 ZPL 在 CTA 计 算 机 上 的 执行 ， 我 们 描述 了 如 何 估算 一 个 计算 的 最 坏 时 间 
复杂 性 。 作 为 程序 员 ， 我 们 可 把 它 作为 可 靠 的 、 独 立 于 机 器 的 界限 。 虽 然 一 些 ZPL 编 译 器 的 
优化 能 产生 更 好 的 性 能 ， 但 该 模型 确保 了 程序 至 少 能 实现 该 层次 的 性 能 。 例 如 ， 编 译 器 能 通 
过 移动 通信 调用 ， 以 重生 通信 和 计算 。 如 果 成 功 ， 可 能 可 以 完全 看 不 到 通信 开销 。 而 如 果 不 
成 功 ， 至 少 性 能 还 是 模型 所 预测 的 。 

我 们 看 到 任何 一 个 语言 都 能 通过 为 每 个 操作 简单 地 提供 性 能 边界 来 定义 性 能 模型 ， 但 回 
忆 一 下 ， 在 使 用 直接 数组 索引 的 转 置 代码 中 所 遇 到 的 困难 一 个 很 小 的 句法 变动 就 能 导致 通 
信 代 价 的 巨大 变化 。 因 此 对 于 那些 支持 直接 数组 索引 的 语言 言 ， 每 个 数组 赋值 会 使 通信 的 
代价 受制 于 转 置 的 代价 ， 这 将 导致 特别 不 精确 的 界限 。 当 允许 程序 员 以 不 同 的 方式 分 发 不 同 
的 数组 时 ， 对 通信 代价 的 预测 将 变 得 尤为 困难 。 因 此 我 们 看 到 ZPL 性 能 模型 最 核心 的 部 分 是 
语言 对 程序 员 所 施加 的 一 组 约束 。 为 此 ， 如 果 一 个 语言 想 要 有 一 个 有 意义 的 并 行 性 能 模型 ， 
必须 在 一 开始 就 将 性 能 模型 设计 到 语言 


8.9 NESL 并 行 语 言 


REHITA (Nested Parallel Language， 缩 写 为 NESL ) 是 上 世纪 90 年 代 中 期 由 美国 卡 
内 基 梅 隆 大 学 Guy Belloch 领 导 的 一 个 小 组 所 实现 的 高 级 数据 并 行 语言 。 NES 不 严格 地 基于 ML 
语言 ， 使 用 了 颇 为 直观 的 函数 方式 。 我 们 对 于 NESL 的 兴趣 源 于 两 个 方面 : 第 一 ，NESL 是 另 
一 种 高 级 全 局 视图 语言 ， 它 是 专 为 数据 并 行 计算 而 设计 的 。 第 二 ，NESL 有 一 个 复杂 性 模型 ， 
它 能 允许 程序 员 评估 他 们 程序 的 行为 。 
8.9.1 语言 概念 


NESL 中 基本 的 数据 类 型 是 序列 ， 写 在 方 括号 中 ， 

[6,14,0,-5] 

以 0 作为 起 始 索 引 。 序 列 可 以 是 字符 ， 

"NESL allows sequences of Characters" 

用 速记 的 方式 写 在 双 引 号 中 。 序 列 也 可 以 包含 子 序列 

["a" "sequence""can be made of " "sequences" ] 

假设 所 有 元 素 都 有 相同 的 原子 类 型 。 

NESL 的 基本 操作 是 并 行 apply-to-each (应 用 到 每 一 个 ) 的 操作 ， 在 大 括号 中 表示 ， 例 如 ， 

{atl: a in [6,14,0,-5]}; 

并 行 地 应 用 增 量 操作 a+1 到 序列 中 的 每 个 元 素 ， 产生 了 [7, 15, 1, -4]。apply-to-each 还 能 操 
作 多 个 相同 长 度 的 序列 ; 

{a+b: a in [6, 14, 0, -5]; b in [4,-4,10,15]} . 

这 产生 了 [10, 10, 10, 10], NESL 定 义 了 一 个 原始 操作 符 的 大 集合 。 此 外 ， 还 可 以 定义 函 
数 ， 以 下 代码 说 明了 函数 的 定义 ， 函 数 的 使 用 以 及 +_reduce， 

function dotprod(a, b) = 


sum({x*y : x in a; y in b}); 
dotprod([2, 3, 1], [6, 1, 41); 
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8.9.2 用 嵌 套 并 行 实 现 和 矩阵 乘 


嵌 套 并 行 定义 为 具有 并 行 地 应 用 一 个 函数 到 一 组 数据 中 各 个 元 素 的 能 力 ， 以 及 出 套 这 种 并 
行 调用 的 能 力 。 这 个 概念 可 以 一 个 简单 的 形式 ， 通 过 如 图 8-6 中 所 示 的 和 矩阵 相 乘 函数 来 说 明 。 

为 了 理解 NESL 的 代码 是 如 何 运 行 的 ， 观 察 一 个 m x m 的 矩阵 ， 它 将 表示 为 一 个 序列 ， 有 六 
行 序列 ， 每 行 中 有 m 项 ， 其 中 第 1 个 序列 就 是 矩阵 最 顶 上 的 一 行 ， 以 此 类 推 。 这 种 矩阵 的 转 置 
会 以 一 种 显而易见 的 方式 对 项 进行 重新 排序 : 第 1 行 序列 贡献 了 输出 中 m 个 新 行 序列 的 各 个 第 1 
项 ， 以 此 类 推 。 


function matrix_multiply(A,B)= 


{{sum({x*y : x in rowA; y in columnB}) 
: columnB in transpose(B)} 
: rowA in A} 





图 8-6 NESL 的 一 个 矩阵 相 乘 函数 


参见 图 8-6 中 的 代码 ， 我 们 注意 到 有 3 个 apply-to-each 的 大 括号 ， 最 外 面 的 apply-to-each 作 
用 到 输入 数组 A 的 行 上 ， 也 即 是 说 ， 每 行 的 处 理 是 独立 的 。 下 一 个 apply-to-each 作 用 到 列 上 ， 
通过 转 置 输入 数组 B 将 其 转换 成 序列 项 ， 因 此 会 对 A 的 每 行 与 B 的 每 列 进行 配对 且 进 行 并 行 处 
理 。 这 两 个 apply-to-each 的 操作 结果 可 用 来 创建 ?个 并 行 任务 ， 每 个 对 应 于 结果 和 矩阵 中 的 一 个 
元 素 。 最 后 ， 最 里 面 的 apply-to-each 并 行 处 理 参 量 序列 中 对 应 项 的 点 积 。 因 此 该 apply-to-each 
SORE EAR ACI. 
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8.9.3 NESL 复 杂 性 模型 


NESL 使 用 两 种 度量 来 确定 一 个 表达 式 的 复杂 性 :工作 和 深度 。 工 作 (work) 是 基本 操作 
的 数量 ， 因 此 我 们 的 矩阵 相 乘 计算 包含 了 OUD) 的 工作 。 深 度 (deep) 是 计算 中 最 长 的 相关 链 。 
apply-to-each 的 深度 是 1， 因 为 所 有 操作 都 能 并 行 执 行 。 求 和 操作 sum 使 用 二 又 树 实现 ， 其 深度 
是 O(logzn)， 因 为 对 叶子 的 计算 必须 依照 叶子 到 根 的 顺序 执行 ， 这 就 引入 了 对 数 长 度 的 相关 链 。 

作为 一 种 函数 式 语言 ，NESL 通 过 抽象 存储 器 单元 和 存储 器 访问 的 概念 ， 揭 示 了 大 量 的 并 
行 性 ， 并 提供 了 程序 设计 的 便利 性 。 复 杂 性 模型 能 获得 最 适合 的 工作 和 最 小 的 延迟 。 但 是 同 
时 ， 函 数 式 的 抽象 阻碍 了 NESL 复 杂 性 模型 描述 机 器 层次 的 细节 ， 诸 如 局 部 性 和 数据 移动 ， 因 
此 该 模型 并 不 允许 程序 员 推断 并 行程 序 性 能 。 


8.10 小 结 


我 们 介绍 了 高 级 数组 程序 设计 语言 ZPL。ZPL 远 比 我 们 在 此 处 所 介绍 的 要 多 (我 们 只 是 介 
绍 了 称 为 ZPL 经 典 的 部 分 ) ， 它 对 于 更 复杂 的 计算 ， 还 有 更 强 的 控制 功能 可 用 。ZPL 的 隐 式 并 
行将 程序 员 从 处 理 诸多 底层 细节 (如 通信 、 同 步 和 数据 分 布 等 ) 中 解脱 出 来 。 同 时 它 的 许多 
特征 都 是 经 过 精心 设计 的 ， 用 以 支持 一 个 精确 的 并 行 性 能 模型 。 该 模型 可 应 用 到 任意 一 台 
(包括 CTA 在 内 的 ) 并 行 计算 机 上 。 因 此 ZPL 是 值得 注意 的 ， 因 为 它 体现 了 高 层 抽象 是 如 此 强 
大 ， 能 用 来 创建 有 效 且 可 移植 的 并 行程 序 。 

NESL 古 一 个 更 高 级 的 语言 。 它 使 用 函数 式 程序 设计 风格 来 表现 并 行 性 ， 还 有 简洁 的 语法 
能 允许 程序 员 说 明 并 行 性 ， 而 无 需 引入 相关 性 。 


= 
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历史 回顾 


ZPL 语 言 是 由 本 书 作者 和 他 们 的 一 流 团队 在 美国 华盛顿 大 学 研发 的 。 这 是 第 个 能 在 所 有 

并 行 平台 (MIMD) 上 获得 高 性 能 ( 即 实现 性 能 可 移植 性 ) 的 高 级 语言 。 其 景 主要 的 贡献 之 

一 就 是 所 见 即 所 得 的 《WYSIWYG) 性 能 模型 [Chamberlain 1998]。 其 他 相关 引用 可 在 ZPL 的 

网 站 上 获得 。NESLIBIelloch 1996] 早 已 是 许多 精巧 算法 的 基础 ，NESL 的 网 站 提供 了 一 些 实例 

以 及 一 个 简短 的 教程 。 

习题 

1 使 用 3 x 3 的 数据 数组 ， 针 对 数据 操作 这 一 小 闻 中 所 提 到 的 ZPL 计 算 ， 手 动 计算 例子 的 信 ， 

2. 修改 咖啡 数据 中 行 排名 的 排序 ， 以 处 理 有 重复 值 的 情况 。 

3 将 Conway 生 命 游戏 的 ZPL 实 现 程序 作为 规范 ， 编 写 MP 程序 实现 生命 游戏 ， 假 设 使 用 2 维 数组 划 
分 。 

4. 编写 ZPL 程 序 ， 实 现 第 4 章 习题 10 中 所 描述 的 红 / 蓝 计 算 ， 

5 使 用 ZPL 性 能 异型， 分 析 习 题 4 中 关于 红 / 蓝 计 算 的 性 能 。 注 意 该 解决 方案 可 能 会 与 Conway 目 全 
游戏 的 分 析 有 许多 共同 特征 。 

6 以 美 推 SUMMA 算 法 的 方式 进行 思考 ， 使 用 扩充 操作 求解 所 有 对 的 最 短路 径 问 题 ，n 个 顶点 的 图 
输入 将 被 表示 成 一 个 nx n 的 邻接 矩阵 ， 用 “无 穷 大 ” 值 来 表示 那些 不 能 直接 相 过 的 位 置 

7. 使 用 ZPL 性 能 模型 分 析 习 题 6 中 所 有 对 的 最 短路 径 计算 的 性 能 ， 

S- 使 用 扩充 操作 符 用 ZPL 编 写 3 维 矩阵 乘 。 将 A 和 B 的 矩阵 扩充 为 复制 值 的 立方 体 ， 执 行 所 有 元 囊 对 
的 乘法 ， 然 后 归 约 到 一 维 以 生成 结果 ， 并 将 其 赋值 给 矩阵 C。 注 意 重 映射 操作 符 会 需要 对 数组 给 
入 时 的 定位 重新 进行 定位 。 

9 应 用 ZPL 性 能 模型 分 析 习题 8 中 的 程序 。 在 考虑 性 能 时 ， 可 使 用 3 维 进程 网 格 。 

10. 基于 习题 9， 使 用 2 维 进程 网 格 时 ， 此 时 数组 将 按 它们 的 “法 线 ”方位 进行 分 配 ， 分 析 该 解决 上 
案 的 性 能 。 

11. 编写 一 个 NESL 程 序 ， 实 现 第 4 章 习 题 10 中 所 提 到 的 红 / 蓝 计 算 。 

12. 解释 试图 用 NESL 实 现 SUMMA 算 法 时 可 能 遇 到 的 问题 。 


第 9 章 对 并 行程 序 设计 现状 的 评价 


正如 第 1 章 中 曾 提 到 的 ， 对 于 并 行程 序 设 计 ， 并 行 计算 社区 尚未 能 解答 所 有 的 疑问 。 因 此 
本 书 在 探讨 特定 的 程序 设计 方法 之 前 ， 先 关注 于 基本 的 原则 。 在 本 章 中 ， 我 们 将 对 并 行程 序 
设计 的 现状 进行 广泛 的 调研 。 我 们 会 先 评 估 现 有 的 一 些 语言 ， 然 后 从 这 些 语言 中 总 结 出 可 供 


9.1 并 行 语言 的 四 个 重要 性 质 


在 开始 评估 不 同 的 程序 设计 方法 之 前 ， 我 们 首先 定义 了 四 个 重要 性 质 ， 它 们 将 贯穿 于 这 
里 的 讨论 ; 

。 正 确 性 (Correctness) 

。 性 能 (Performance) 

。 可 扩展 性 (Scalability) 

。 可 移植 性 (Portability) 

这 个 列表 并 不 完整 ， 还 有 其 他 一 些 值得 芳 虑 的 性 质 ， 但 这 四 个 性 质 对 于 并 行程 序 员 而 言 
是 最 重要 的 需求 。 


9.1.1 正确 性 


虽然 编写 任意 一 种 正确 的 程序 都 是 不 容易 的 ， 但 这 对 于 并 行程 序 而 言 就 更 为 困难 。 这 是 
因为 并 行程 序 对 程序 执行 的 定时 (timing) 特征 比较 敏感 。 串 行程 序 通常 是 可 重 现 的 ， 因 此 两 
次 相同 输入 的 执行 自然 能 产生 相同 输出 的 结果 。 而 并 行程 序 则 不 然 ， 它 的 行为 可 以 由 于 定时 
的 不 同 而 发 生 很 大 不 同 。 因 此 对 于 任意 并 行程 序 设 计 系统 而 言 ， 首 先 要 问 的 一 个 问题 是 ， 能 
否 消除 这 种 敏感 性 ? 如 果 能 ， 在 正确 性 方面 ， 并 行程 序 就 有 可 能 可 以 简化 到 近似 于 串 行 程序 
的 程度 。 

P 独 立 (P-Independence)。 上 述 思 考 最 终 促 进 了 P 独 立 概念 的 产生 。 

P 独 立 ”一 个 并 行程 序 是 PP 独立 的 ， 当 且 仅 当 在 相同 的 输入 下 ， 无 论 运行 它 的 进程 数量 

或 布局 (arrangement) 有 多 大 的 不 同 ， 孝 能 产生 相同 的 输出 ; 否则 该 程序 就 是 已 相关 

(P-dependence) 的 。 


P 独 立 并 不 能 保证 浮 点 算术 的 精确 性 。P 独 立 程序 的 几 次 不 同 运行 会 在 一 些 位 (bit) 上 产 
生 不 同 的 结果 。 然 而 P 独 立 能 在 数量 不 同 的 并 行 出 现时 ， 保 证 控制 流 的 可 重 现 。 

一 个 并 行 的 “hello world” 程 序 如 果 只 打印 一 次 “hello world”， 则 它 是 最 容易 的 P 独 立 。 
从 另 一 个 极端 而 言 ， 一 个 并 行程 序 输出 运行 它 的 进程 数 是 最 容易 的 P 相 关 。 

P 独 立 的 概念 是 非常 重要 的 ， 因 为 我 们 认为 程序 员 通 常 都 会 想 要 编写 P 独 立 的 程序 ， 但 当 
语言 抽象 本 身 就 是 P 相 关 时 ， 程 序 员 就 必须 设法 压制 与 进程 数量 相关 的 敏感 性 。 因 此 是 P 相 关 
复杂 化 了 并 行程 序 的 构建 。 
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全 局 视图 抽象 和 局 部 视图 抽象 。 通 过 把 程序 设计 抽象 分 成 两 类 ， 就 可 以 将 P 独 立 的 概念 应 
用 到 语言 中 : 
* 全 局 视图 抽象 (Global view abstraction)， 一 个 能 保持 P 独 立 程 序 行为 的 语言 结构 ， 表 现 
出 了 全 局 视图 抽象 


现 出 了 局 部 视图 抽象 

因此 ， 使 用 全 局 视图 抽象 的 语言 称 为 全 局 视图 语言 ， 使 用 局 部 视图 抽象 的 语言 称 为 局 部 
视图 语言 。 全 局 视图 语言 更 容易 调试 ， 因 为 它们 能 基于 串 行 执行 进行 调试 ， 而 非 基于 并 行 执 
行 的 任意 一 个 实例 (instance), 

【 例 】 考虑 下 列 在 前 几 章 中 曾 提 及 的 一 些 程序 设计 抽象 。 

“ 锁 ; 使 用 锁 的 两 个 线程 可 能 会 导致 死 锁 (参见 第 6 章 )， 但 是 同样 的 程序 使 用 一 个 线程 执 

ÍT, 通常 就 不 会 导致 死 锁 ， 因 此 锁 是 局 部 视图 抽象 。 

* 发送/ 接收 : 使 用 阻塞 式 接收 操作 的 程序 ， 能 在 多 个 进程 上 正确 执行 ， 但 在 单个 进程 上 

执行 时 会 导致 死 锁 ， 因 此 接收 操作 是 局 部 视图 抽象 . 

“forall 循 环 : 如 OpenMP 中 使 用 的 那些 并 行 循 环 ， 无 论 用 来 执行 循环 的 线程 数量 是 多 少 ， 

都 能 提供 相同 的 结果 ， 因 此 forall 循 环 是 全 局 视图 抽象 。 

"FRG: 障 机 能 同步 所 有 线程 或 进程 的 执行 。 虽 然 执行 障 栅 的 时 延 与 参与 同步 的 线程 或 进 

程 的 数量 相关 ， 但 该 操作 并 没有 产生 与 线程 或 进程 数量 相关 的 副作用 ， 因 此 障 棚 是 全 局 

视图 抽象 。 

* 归 约 和 扫描 ， 归 约 和 扫描 的 语义 是 基于 数组 的 元 素 定义 的 ;与 数组 所 在 的 线程 或 进程 的 

数量 无 关 ， 因此 归 约 和 扫描 是 全 局 视图 抽象 。 但 如 果 用 户 自 定义 的 归 约 和 扫描 i 有 副作用 ， 

则 这 些 操作 就 必须 算是 局 部 视图 抽象 ， 因 为 副作用 是 与 参与 操作 的 线程 或 进程 的 数量 相 

关 的 。 

[Al 考虑 下 列 语言 

“ ZPL Classic: 曾 在 第 8 章 中 介绍 过 的 ZPL 语 言 核心 ， 也 称 为 ZPL 经 典 。 这 是 -种 全 局 视图 

语言 。 

*NESL; NESL 是 一 种 全 局 视图 语言 。 

“ 消息 传递 库 (Message Passing Libraries), 消息 传 递 显 然 是 一 种 局 部 视图 语言 ， 比 如 Co- 

Array Fortran 和 其 他 大 部 分 的 并 行程 序 设 计 工 具 。 


9.1.2 PERE 


性 能 要 有 多 快 才 足 够 ?虽然 我 们 在 本 书 中 曾 提 到 实现 P 倍 的 并 行 是 目标 ， 但 回答 这 个 问题 
却 要 依据 具体 情况 。 例 如 ， 在 一 个 双核 处 理 器 的 系统 中 ， 根 据 不 同情 况 ， 程 序 员 可 能 会 对 1.2. 
1.9 和 2.1 的 加 速 比 都 感到 满意 : 

“ 当 应 用 本 身 只 具有 很 少 的 可 并 行 性 , 而 且 并 行 的 目标 也 仅仅 是 使 用 另 一 个 空闲 处 理 器 时 ， 

12 这 个 适中 的 加 速 比 也 是 能 令 人 满意 的 。 毕 竟 最 后 的 结果 是 不 可 忽视 的 20% 的 性 能 提高 ， 

而 这 是 通过 其 他 方式 都 不 能 轻易 获得 的 。 

“如果 程序 员 仔细 地 构建 了 程序 ， 消 除了 大 部 分 的 并 行 开销 ， 利 用 了 可 用 的 并 发 性 ， 那 么 

获得 接近 2 的 加 速 比 也 是 在 情理 之 中 的 。 

“ 当 计 算 表现 出 不 错 的 访问 局 部 性 时 ， 超 线性 的 加 速 比 也 是 有 可 能 的 。 这 是 因为 两 个 核 加 
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起 来 有 比 各 自 都 要 大 的 L1 cache， 这 使 得 整个 系统 能 容纳 更 大 的 工作 集 。 但 是 在 多 核心 
片 系统 上 取得 超 线性 加 速 比 ， 比 在 其 他 多 处 理 器 系统 上 通常 要 难得 多 ， 这 是 因为 两 个 核 
我 们 认为 在 性 能 评估 中 需要 了 解 情况 ， 并 对 性 能 有 个 合理 预期 。 

9.1.3 可 扩展 性 


共享 了 一 些 存储 器 资源 (如 Core Duo 中 的 L2 cache 以 及 所 有 多 核 芯 片 中 的 存储 器 带宽 )。 


9.1.4 可 移植 性 


性 能 不 仅 与 应 用 相关 ， 也 与 硬件 相关 。 尤 其 是 ， 当 处 理 器 数 增加 时 ， 会 越 来 越 难保 持 相 
CPU 供应 商 能 继续 遵循 Moore 定 律 。 因 此 任何 长 期 使 用 的 软件 ， 也 即 是 成 功 的 软件 ， 都 必须 要 


同 级 别 的 加 速 比 。 因 此 在 许多 情况 下 ， 可 扩展 的 并 行 性 并 不 是 必需 的 目标 。 特 别 当 短期 目标 
是 运行 在 某 个 特定 的 硬件 平台 上 了 时， 比如 某 个 有 固定 数量 处 理 器 的 多 核 芯片 ， 就 尤为 如 此 。 


但 多 核 芯片 上 核 的 数量 似 平 增加 得 很 快 ， 基 本 上 每 18 个 月 能 翻 一 番 ， 当 然 前 提 是 如 果 


能 扩展 以 适应 这 条 性 能 曲线 。 一 旦 写 好 一 个 可 扩展 软件 ， 它 就 能 在 没有 程序 员 特 别 的 干预 下 ， 
跟随 硬件 的 发 展 ， 如 同 串 行程 序 在 那个 CPU 主 频 快速 增长 的 年 代 中 所 做 的 一 样 。 


除了 可 扩展 性 ， 可 移植 性 对 于 长 期 使 用 的 软件 也 是 至 关 重 要 的 ， 这 是 由 于 并 行 计算 机 硬 
件 的 差异 性 。 我 们 要 特别 强调 性 能 可 移植 性 (performance portability) 这 个 概念 的 重要 性 。 
就 能 获得 较 好 性 能 的 能 


它 是 指 一 个 并 行程 序 在 多 种 不 同类 型 的 并 行 计算 机 上 ， 只 需要 通过 一 些 适当 的 优化 (tuning)， 
性 能 可 移植 性 可 以 通过 在 逼真 的 抽象 机 模型 上 设计 算法 来 获得 ， 这 也 是 为 什么 会 引入 
CTA 的 原因 。 抽 象 机 模型 把 假设 局 限于 普 适 的 概念 ， 建 议 了 不 同 规模 下 的 机 器 实际 可 达到 的 
必需 的 ， 但 算法 就 可 以 不 必 完 全 重新 考虑 。 

象 机 模型 。 


开销 。 通 过 在 一 个 逼真 的 抽象 机 模型 上 进行 程序 设计 ， 程 序 员 可 以 将 他 们 的 代码 移植 到 不 同 
体系 结构 的 并 行 计算 机 上 ， 并 且 可 以 期 望 程序 的 核心 性 质 与 新 硬件 是 相 兼 容 的 。 虽 然 调 


谐 是 


9.2 评估 现 有 方法 


与 此 相反 ， 程 序 员 直 接 针 对 某 些 特定 的 目标 硬件 ， 可 能 会 导致 在 移植 到 不 同 平台 时 ， 被 
一 些 低 等 级 的 结构 ， 则 它 很 有 可 能 在 不 同 硬件 上 有 不 同 的 性 能 表现 。 


迫 改 变 算法 。 这 是 由 于 代码 可 能 依赖 于 一 些 不 再 支持 的 特性 ， 或 是 采用 了 原先 硬件 中 某 些 特 
殊 的 性 能 特性 。 程 序 员 在 开发 算法 时 必须 假设 茶 个 平台 ， 因 此 这 个 平台 也 可 能 就 是 逼真 的 抽 


使 用 某 种 可 移植 的 底层 ， 比 如 MPI， 并 不 能 保证 性 能 可 移植 性 。 如 果 可 移植 的 底层 提供 了 
我 们 现在 开始 评估 第 6 章 至 第 8 章 中 讨论 过 的 几 种 程序 设计 方法 。 
9.2.1 POSIX Threads 


Pthreads (POSIX Threads) 和 其 他 基于 锁 的 方法 都 提供 了 强大 的 能 力 和 灵活 性 。 但 这 些 
显然 是 P 相 关 的 方法 ,提供 了 太 多 的 灵活 性 。 此 种 灵活 性 影响 了 正确 性 和 性 能 
语句 都 有 可 能 与 其 他 语句 进行 交互 。 尤 其 是 


这 个 问题 部 分 是 由 于 线程 能 在 宽 范 围 的 接口 之 间 进 行 交 互 。 因 为 是 共享 地 址 空间 ， 任 何 


任何 一 个 存储 器 访问 都 有 可 能 引入 与 其 他 线程 
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的 相关 性 。 例如 在 调试 Pthreads 程 序 的 一 个 竞 态 条 件 时 , 就 可 能 会 涉及 到 程序 中 任意 一 个 语句 。 
与 此 相反 ， 在 MPI 中 调试 一 个 竞 态 条 件 时 ， 则 只 会 涉及 到 MPI 例 程 ， 因 为 这 是 进程 之 间 交 互 的 
唯一 途径 。( 当 然 MPI 也 有 自己 的 难处 ， 我 们 稍 后 会 讨论 到 。) 

宽 范围 的 接口 也 会 影响 性 能 。 我 们 认为 通过 识别 出 跨 线程 的 相关 性 来 推断 并 行 性 能 很 重 
要 ,但 由 于 与 其 他 对 存储 器 读 和 写 的 相关 性 相 比 ， 跨 线程 的 相关 性 看 上 去 并 没有 区 别 ， 因 此 
共享 地 址 空间 并 不 鼓励 局 部 性 。 

锁 和 条 件 变量 的 特性 也 是 容易 出 现 问题 的 。 使 用 它们 就 会 导致 强迫 程序 员 推断 所 有 可 能 
的 交互 和 交叉 〈interleave) ， 因 为 这 两 种 结构 是 基于 状态 变化 的 定时 。 更 具体 的 说 ， 锁 和 条 件 
变量 结构 从 两 方面 破坏 了 模块 化 和 抽象 的 目标 : (1) 基于 锁 的 代码 是 不 能 组 合 的 ，(2) 锁 对 
于 性 能 和 正确 性 而 言 都 是 全 局 性 的 。 两 段 各 自 能 正确 执行 的 代码 ， 组 合 在 一 起 后 就 有 可 能 改 
生 错误 。 例 如 ， 如 果 两 段 代码 都 没有 用 锁 保护 共享 数据 ， 则 可 能 导致 竞 态 条 件 ， 如 果 它 们 各 
目 以 不 同 顺序 获得 同一 集合 的 锁 ， 则 可 能 产生 死 锁 ， 如 果 它 们 访问 同一 cache 行 上 的 变量 ， 则 
可 能 导致 假 共享 。 出 于 性 能 的 原因 ， 以 全 局 方式 考虑 锁 也 很 重要 ， 这 是 因为 锁 的 粒度 能 影响 
并 行 性 和 性 能 。 例 如 在 某 种 情况 下 对 某 个 数据 结构 提供 互 斥 沪 问 是 合适 的 ， 但 当 它 与 其 他 数 
据 结 构 组 合 后 ， 我 们 可 能 会 需要 一 个 更 粗 粒度 的 锁 。 

不 仅 把 锁 行 为 的 细节 隐藏 到 模块 中 是 不 可 能 的 ， 将 锁 的 需求 汇总 到 一 个 接口 中 也 是 很 困 
难 的 。 仅 仅 知道 哪些 锁 在 使 用 是 不 够 的 。 为 了 避免 死 锁 ， 我 们 需要 知道 这 些 锁 被 获取 的 顺序 。 
为 了 优化 性 能 ， 我 们 需要 知道 这 些 锁 被 用 在 哪里 。 总 而 言 之 ， 锁 和 条 件 变量 ， 与 模块 化 是 格 
格 不 入 的 。 

对 于 共享 地 址 空间 方法 ， 一 种 观点 认为 它 与 串 行程 序 设计 的 相似 性 可 以 使 得 品行 程序 以 
增 量 的 方式 移植 到 并 行 平台 上 。 另 一 种 相对 比较 激进 的 观点 则 认为 这 种 模型 是 在 鼓励 程序 员 
编写 低 效 率 的 并 行程 序 。 由 于 它 与 串 行程 序 有 着 太 多 的 相似 性 ， 因 此 需要 花费 巨大 的 精力 才 
能 将 其 转变 成 高 效率 的 并 行程 序 。 我 们 认为 由 于 并 行程 序 设计 与 串 行 程序 设计 截然 不 同 ， 因 
此 并 不 欣赏 那 种 “ 慢 移植 ”的 方式 。 


9.2.2 Java Threads 





Java 提 供 了 可 供 程序 设计 的 多 个 层次 。 底 下 一 层 与 POSIX Threads 很 是 相似 ， 因 此 它 就 具 
备 了 与 POSIX Threads 几 乎 相同 的 优 缺 点 。 上 面 一 层 的 接口 创建 了 同步 的 对 象 和 方法 ， 以 及 一 
些 隐 藏 了 很 多 底层 接口 复杂 性 的 并 发 数据 结构 。 它 有 一 些 性 能 上 的 问题 ， 因 为 它 限 制 了 程序 
员 对 并 行 粒度 的 控制 能 力 以 及 隐藏 时 延 的 优化 能 力 。 虽 然 在 有 些 例子 中 这 些 问 题 并 不 重要 ， 
但 是 通常 拥有 更 好 的 控制 对 实现 性 能 和 可 扩展 性 的 目标 是 必须 的 。 





9.2.3 OpenMP 


OpenMP 是 一 种 全 局 视图 语言 ， 它 限制 程序 员 只 能 使 用 最 简单 的 并 行 形式 ， 因 而 就 特别 容 
易 使 用 ， 但 许多 并 行 形式 就 不 能 在 OpenMP 中 体现 出 来 。 如 果 与 Peril-L 语 言 相 比 ，OpenMP 仅 
仅 提供 了 forall 语 句 、 障 机 和 归 约 的 功能 ， 而 且 它 还 不 允许 类 似 细 粒 度 同步 操作 的 并 发 形式 。 
9.2.4 MPI 


MPI 只 允许 进程 间 通过 MPI 调 用 进行 交互 ， 因 此 与 Pthreads 相 比 ，MPI 提 供 的 接口 范围 更 
窗 。 罕 范围 的 接口 通常 会 比 宽 范 围 的 接口 更 加 容易 考虑 。 但 在 使 用 MPI 时 ， 由 于 程序 员 所 需 
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说 明 的 底层 细节 是 如 此 之 多 ， 从 而 导致 了 此 种 说 明 既 繁琐 又 易 错 。 尤 其 是 ， 由 于 程序 员 必 须 
为 每 个 参与 通信 的 进程 元 余地 说 明 每 个 通信 操作 ， 从 而 导致 了 许多 出 错 的 可 能 。 

虽然 MPI 的 点 对 点 通信 例 程 是 P 相 关 的 ， 但 MPI 在 集合 通信 操作 中 却 的 的 确 确 提供 了 通信 
抽象 ， 这 包括 了 归 约 、 扫 描 以 及 用 户 自 定义 的 归 约 和 扫 摘 。 这 些 集 合 操 作 在 MPI 程 序 中 被 大 
量 使 用 ， 这 可 能 是 程序 员 将 计算 看 得 更 为 全 局 化 的 极 少 数 方法 之 一 。 

作为 分 布 式 存储 器 程序 设计 模型 ，MPI 人 迫使 程序 员 同 时 思考 多 个 不 连续 的 地 址 空间 。 因 此 
程序 员 有 时 需要 判断 是 否 需 要 在 某 个 进程 上 执行 一 段 本 地 计算 ， 但 在 另 一 些 时 候 ， 他 们 需要 
转换 思维 ， 将 这 部 分 计算 与 其 他 进程 上 的 计算 关联 起 来 。 与 此 相反 ，Pthreads,OpenMP 和 ZPL 
都 提供 了 单一 地 址 空间 ， 因 此 它们 只 需要 程序 员 进行 较 少 的 思维 转换 。 

最 后 ， 虽 然 MPI 程 序 几乎 能 在 任意 并 行 计算 机 上 编译 和 运行 ， 具 有 可 移植 性 ， 但 MPI 程 序 
却 不 能 保证 性 能 可 移植 性 。 这 是 由 于 接口 的 层次 是 如 此 之 低 ， 以 至 于 间接 暴露 了 对 底层 硬件 
的 假设 。 尤 其 是 ， 针 对 某 一 种 并 行 计算 机 ， 满 足 其 特定 点 对 点 通信 模式 的 优化 ， 通 常 对 另 一 
种 并 行 计算 机 却 不 是 最 优 的。 当然 如 同 Java Threads 能 在 Pthreads 之 上 提供 更 简单 的 接口 一 样 ， 
另 一 种 更 高 层 的 语言 也 可 以 构建 于 MPI 之 上 ， 因 此 可 以 将 MPI 看 作 是 更 高 层 语 言 的 通信 基础 。 
基于 这 个 想法 ， 我 们 的 问题 是 ， 哪 种 是 构建 于 MPI 之 上 最 为 合适 的 语言 ? 


9.2.5 PGAS 语 言 





分 区 的 全 局 地 址 空间 (PGAS) 语言 基于 MPI 做 了 改进 ， 它 们 为 特定 的 通信 提供 了 更 高 层 
的 机 制 ， 而 这 些 机 制 能 在 分 布 存 储 器 的 并 行 计算 机 上 有 效 实现 。 这 类 语言 最 关键 的 优势 在 于 
为 程序 员 提供 了 全 局 视图 ， 从 而 使 得 程序 员 不 必 再 局 限于 对 单个 进程 的 考虑 ， 因 为 覆盖 于 分 
布 存 储 器 之 上 的 全 局 地 址 空间 ， 能 支持 全 局 数据 结构 的 定义 。 

这 三 种 语言 还 引入 了 一 系列 聪明 的 想法 以 简化 程序 设计 。 我 们 从 每 个 语言 中 各 挑 出 一 个 
想法 来 介绍 : Co-Array Fortran 中 的 co-array 是 一 个 非常 精致 的 机 制 ， 它 能 访问 非 本 地 存储 器 ， 
并 且 能 很 干净 地 和 财 和 到 语言 中 ， 几 乎 不 需要 增加 额外 的 概念 。UPC 的 upc-forall 语 名 能 根据 程 
序 员 指 定 的 相似 性 来 分 配 和 迭代 次 数 ， 这 给 予 了 程序 员 在 由 编译 器 生成 的 全 局 操作 上 的 某 种 控 
制 。Titanium 无 序 的 foreach 选 代 子 (iterator) 在 处 理 涉及 多 维 数组 的 程序 时 ， 能 显著 简化 程 
序 员 和 编译 器 的 工作 。 

尽管 有 全 局 地 址 空间 ， 但 PGAS 语 言 的 主要 问题 仍 在 于 它们 都 保留 了 过 多 的 局 部 视图 。 程 
序 员 会 首先 关注 于 编写 本 地 程序 ， 然 后 将 其 复制 到 多 个 进程 上 。 程 序 员 仍然 必须 将 计算 作为 
更 大 解决 方案 的 一 部 分 来 管理 。 例 如 ， 处 理 所 有 “边界 情况 ”的 责任 就 都 落 到 了 程序 员 身 上 。 
这 种 本 地 化 计算 的 后 果 是 保留 了 太 多 低层 的 细节 。 消 息 传递 的 机 制 虽然 消失 了 ， 但 局 部 视图 
所 需 承 担 的 责任 和 负担 却 依 然 存在 。 


9.2.6 ZPL 


ZPL 通 过 提高 抽象 的 层次 提供 了 程序 的 全 局 视图 ， 以 此 简化 程序 设计 。 经 典 的 ZPLS 是 全 
局 视图 语言 。ZPL 提 供 了 一 组 丰富 的 高 层 并 行 抽象 ， 包 括 : 数组 语言 的 语义 、 区 域 、 扩 充 、 
归 约 和 扫描 。 这 些 抽 象 结构 隐藏 了 通信 和 同步 的 底层 细节 ， 因 此 抽象 的 结果 使 ZPL 程 序 变 得 
相当 简洁 。 





O 一些 更 高 层 的 语言 结构 (并 没有 在 本 书 中 描述 ) 能 产生 非 P 相 关 的 结果 。 
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ZFL 鼓 励 程序 员 通过 使 用 数组 操作 进行 并 行 风格 的 思考 。 它 的 新 抽象 (比如 扩充 ) BBR 
生 了 一 些 新 程序 设计 技术 的 出 现 ， 比 如 求解 问题 空间 的 提升 (Problem Space Promotion) ( 参 
见 第 10 章 ) 。 虽 然 ZPL 表 现 出 了 高 层 抽象 ， 但 它 通 过 构建 在 逼真 的 机 器 模型 (CTA) 之 上 ， 提 
供 了 性 能 可 移植 性 。 基 于 该 机 器 模型 研发 的 性 能 模型 可 用 来 描述 ZPL 操 作 的 执行 开销 ， 并 允许 
程序 员 以 独立 于 机 器 的 方式 推断 性 能 。ZPL 还 鼓励 通过 它 的 可 扩展 并 行 抽象 创建 可 扩 展 程序 。 

2EL 几 个 严重 缺点 包括 : 陌生 的 概念 区域， 扩充 ， 重 映射 和 数组 程序 设计 等 ) ， 人 缺少 基 
于 指针 的 数据 结构 ， 功 能 有 限 的 动态 存储 器 分 配 工具 。 另外 它 还 不 支持 现代 程序 设计 方法 学 ， 
如 面向 对 象 程序 设计 。 


9.2.7 NESL 


与 其 他 函数 式 语言 一 样 ，NESL 的 访问 透明 性 使 程序 更 数学 化 ， 也 更 容易 考虑 。 它 的 全 局 
视图 抽象 有 效 的 隐藏 了 并 行 性 。 但 是 与 其 他 函数 式 语言 一 样 ， 由 于 抽象 掉 了 存储 器 访问 ， 
NESL 程 序 就 很 难 分 析 数 据 的 移动 和 局 部 性 ， 以 及 用 来 获得 良好 并 行 性 能 的 关键 性 特征 。 类 似 
的 ，NESL 鼓 励 用 无 限 并 行 性 方法 来 设计 算法 。 例 如 它 能 很 自然 的 实现 矩阵 乘 的 三 重 嵌 套 循环 ， 
这 获得 了 最 大 的 流 在 并 行 性 。 与 此 相对 ， 虽然 SUMMA 算 法 是 一 个 很 好 的 实用 性 并 行 算法 ， 
但 用 NESL 实 现 就 较为 困难 。 


9.3 可 供 将 来 借鉴 的 经 验 


由 于 理想 的 并 行程 序 设计 设施 还 没有 被 开发 出 来 ， 因此 我 们 基于 过 去 的 经 验 ， 考 虑 未 来 
的 这 个 系统 应 当 具 有 哪些 特性 。 


9.3.1 隐藏 并 行 


第 6 章 至 第 8 章 都 清晰 地 表明 了 并 行程 序 设 计 有 多 难 ， 读者 或 许 会 问 “ 是 否 有 必要 像 那 样 
设计 程序 ， 以 此 获得 并 行 的 好 处 ?”， 答案 是 “是 ， 也 不 是 ”。 

并 行 很 入 以 来 都 是 成 功 的 ， 只 是 因为 之 前 一 直 在 底层 ， 对 程序 员 隐 藏 而 已 。 最 主要 的 例 
子 古 挖 据 现 代 处 理 器 微 架 构 中 的 并 行 性 。 考 虑 下 列 特 征 ， 它们 都 提供 了 隐藏 的 并 行 。 大 致 上 
根据 时 间 排 序 : 

“位 并 行 (bit-parallel) 的 功能 部 件 

“ 乘法 功能 部 件 

* 流水 线 执行 

* LFF (out of order) 执行 

“不断 增加 的 数据 通路 宽度 

“DMA 控 制 器 

© PR 

° 追踪 cache (trace cache) 

“并 发 多 线程 

* 向 量 处 理 器 

“ 心 片 多 处 理 器 

* 协 处 理 器 (co-processor): I/O 控制 器 ， 网 络 控制 器 ， 图 形 协 处 理 器 
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列表 中 以 针 体 表示 的 项 是 将 并 行 性 暴露 给 了 软件 ， 其 余 大 部 分 对 程序 员 是 隐藏 的 。 我 们 说 
“大 部 分 ”是 因为 有 时 程序 员 或 编译 器 希望 推断 cache、 预 取 或 硬件 并 行 其 他 方面 的 效果 。 在 
某 些 例 子 中 这 部 分 的 功能 是 被 暴露 给 软件 的 ， 例 如 通过 预 取 指 令 或 是 性 能 异常 。 

我 们 看 到 随 着 时 间 的 推移 ， 并 行 性 是 朝 着 更 大 单元 的 趋势 发 展 。 基 于 这 个 观点 ， 我 们 不 
可 能 再 把 并 行 性 隐藏 在 硬件 中 ， 这 也 就 解释 了 为 什么 现今 并 行 性 会 以 多 核 芯 片 的 形式 暴露 给 
软件 。 

当然 有 几 种 不 同 的 方法 可 用 来 隐藏 并 行 。 例 如 我 们 看 到 ZPL 如 何在 提供 串 行 语义 的 同时 ， 
豆 励 程序 员 根据 区 域 思 考 ， 而 这 能 隐 式 表现 并 行 。 另 一 个 例子 是 Cilk 语 言 ， 它 使 用 一 组 能 产 
生 并 行 的 显 式 并 行 结构 ， 对 C 语 言 进行 了 扩展 。Cilk 使 用 称 为 串 行 省 略 (serial elision) 的 定义 
来 保持 串 行 语义 。 尤 其 是 ，Cilk 程 序 的 语义 与 那些 去 除了 Cikk 结 构 的 串 行 C 语 言 程序 的 语义 是 
完全 一 致 的 。 

隐藏 并 行 是 至 关 重 要 的 ， 因 为 它 能 隐藏 复杂 性 ， 而 这 在 系统 设计 中 是 一 个 极为 强大 的 工 
共 。 当 然 这 之 间 的 窍门 在 于 ， 如 何 既 能 隐藏 复杂 性 又 能 使 性 能 开销 显得 微不足道 。 


9.3.2 透明 化 性 能 


让 程序 员 在 开发 算法 和 程序 的 过 程 中 ， 就 能 精确 地 推断 性 能 是 非常 重要 的 。 我 们 看 到 ， 
任意 层次 的 语言 都 能 妨碍 对 性 能 的 推断 ， 如 Pthreads 和 NESL。 同 样 ， 任 意 层次 的 语言 ， 不 管 
低层 或 高 层 ， 也 都 能 支持 对 性 能 的 推断 ， 如 MPI，Co-Array Fortran 和 ZPL。 


9.3.3 局 部 性 9S 


我 们 认为 全 局 视图 抽象 是 必需 的 ， 但 让 程序 设计 的 抽象 鼓励 局 部 性 和 最 小 化 数据 移动 也 
是 非常 重要 的 。MPI 通 过 通信 的 显 式 表 示 和 困难 性 来 鼓励 局 部 性 。PGAS 语 言 和 ZPL 语 言 均 以 
不 同 的 程度 鼓励 局 部 性 ， 同 时 又 没有 引入 过 多 的 程序 设计 困难 。 展 望 未 来 ， 我 们 希望 所 开发 
的 语言 既 能 鼓励 局 部 性 ， 又 能 提供 便利 ， 这 一 点 尤为 重要 。 


9.3.4 约束 并 行 


语言 设计 者 经 常 试图 提供 强大 的 语言 结构 以 方便 程序 设计 。 但 在 并 行 语言 中 ,语言 结构 
的 过 于 强大 ， 以 及 程序 员 所 拥有 的 过 多 灵活 性 ， 都 将 是 有 害 的 。 

* 灵活 性 会 影响 正确 性 ， 因 为 它 会 允许 一 些 很 难处 理 的 交互 。 例 如 ， 人 允许 线程 在 任意 时 刻 
访问 和 修改 任意 存储 器 地 址 倒是 很 容易 ， 但 这 种 便利 会 导致 很 难 限制 不 想 要 的 交互 。 

* 灵活 性 会 影响 性 能 ， 因 为 它 会 混淆 性 能 模型 。 例 如 ， 锁 引入 了 资源 竞争 的 可 能 性 ， 但 在 
不 了 解 多 种 机 器 特定 操作 的 代价 时 (例如 存储 器 时 延 ， 指 令 时 延 和 竞争 线程 数 )， 推 断 
锁 的 性 能 将 极为 困难 。 

* 灵活 性 可 用 于 实现 最 大 并 行 性 ， 但 最 大 并 行 性 并 不 是 目标 。 我 们 的 目标 是 将 可 用 的 并 行 
性 高 效率 的 使 用 ， 这 意味 着 我 们 通常 需要 利用 局 部 性 ， 限 制 线程 间 的 相关 性 ， 以 及 推断 
数据 的 移动 和 同步 。 

因此 并 行 语言 的 重要 性 质 可 能 不 在 于 它 允 许 做 什么 ， 而 是 它 不 允许 做 什么 。 例 如 ， 对 比 





Slocality 既 可 做 “局 部 性 ” 解 ， 又 可 做 “本 地 性 ” 解 。 此 处 略 偏向 后 者 ， 但 以 全 书 术 语 统一 起 见 ， 故 仍 译 为 
“局 部 性 "。 一 一 译 者 注 
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POSIX Threads 和 一 些 更 高 级 的 方法 ， 比 如 OpenMP 和 ZPL， 我 们 看 到 Pthreads 人 允许 线程 非常 自 
由 地 交互 ， 这 使 得 程序 员 必 须 说 明 哪些 操作 不 应 当 发 生 。 反 之 ，OpenMP 和 ZPL 从 一 开始 就 限 
制 了 可 用 的 并 行 性 。 从 正确 性 的 观点 来 看 ， 这 使 得 错误 的 危险 性 更 小 。 从 性 能 的 观点 来 看 ， 
这 使 得 程序 的 行为 更 加 可 预测 。 当 然 ， 关 键 在 于 找到 自由 与 约束 之 间 合 适 的 平衡 ， 而 这 个 问 
题 的 答案 可 能 会 根据 求解 问题 领域 的 不 同 而 有 所 不 同 。 


9.3.5 隐 式 并 行 与 显 式 并 行 


我 们 希望 使 用 约束 的 并 行 以 方便 程序 设计 ， 透 明 化 性 能 ， 以 及 鼓励 局 部 性 。 我 们 可 能 会 
问 这 样 的 一 个 问题 : 在 哪个 层次 中 暴露 并 行 性 是 最 合适 的 ? 我们 应 当 把 并 行 性 暴露 在 库 中 ， 
在 函数 中 ， 还 是 在 硬件 接口 (ISA) 中 ? 依据 并 行 性 属于 底层 的 想法 ， 合 适 的 层次 应 该 要 尽 可 
能 的 低 ， 但 又 不 会 影响 我 们 推断 性 能 和 获得 良好 性 能 的 能 

不 同 的 求解 问题 领域 有 不 同 的 需求 。 迄 今 为 止 ， 通 用 微 处 理 器 都 能 对 软件 隐藏 并 行 性 ， 
但 甚至 是 早期 的 图 形 处 理 器 都 发 现 暴 露 并 行 性 很 重要 。 现 今 的 图 形 处 理 器 (GPU) 能 以 一 种 
很 民 好 的 方式 暴露 并 行 性 : 程序 员 通 常 以 串 行 代码 片 段 的 方式 编写 阴影 例 程 ， 而 并 行 性 则 由 
硬件 供应 商 编写 的 代码 实现 。 其 他 一 些 求解 问题 领域 ， 比 如 数字 信号 处 理 ， 因 为 有 足够 的 约 
束 ， 所 以 才 会 有 成 功 的 领域 相关 (domain-specific) 语言 出 现 。 它 们 能 有 效 的 编译 ， 产 生 特别 
高 效 的 并 行 代码 。 

如 何平 衡 好 存在 于 通用 性 与 便利 性 之 间 的 关系 是 极 具 挑战 性 的 。 通 用 的 解决 方案 试图 提 
供 通 用 的 机 制 ， 而 领域 相关 的 解决 方案 则 通过 高 层 抽象 隐藏 并 行 。 这 种 关系 的 平衡 被 认为 是 
显 式 并 行 与 隐 式 并 行 之 间 的 折 中 ， 即 显 式 更 通用 ， 而 隐 式 更 便利 。 如 果 提供 隐 式 并 行 的 抽象 
能 与 低层 、 更 加 显 式 的 并 行 形式 相 联系 ， 程 序 员 就 能 打破 这 个 平衡 ， 邓 选 出 一 个 既 能 满足 程 
序 设计 效果 又 能 满足 性 能 需求 的 层次 。 

因而 其 目标 就 是 提供 能 连贯 支持 一 系列 不 同等 级 抽象 的 程序 设计 系统 ; 

“在 高 等 级 的 层次 中 ， 抽 象 提供 了 便利 性 ， 但 未 提供 完整 的 通用 性 ， 即 约束 的 并 行 ， 

* 在 低 等 级 的 层次 中 ， 会 有 更 多 通用 的 特性 。 

这 种 系统 的 关键 在 于 : (1) 为 专家 提供 了 便利 的 方法 来 创建 合适 的 抽象 ， 尤 其 是 那些 与 
领域 相关 的 ，(2) 为 在 不 同等 级 抽象 上 说 明 的 程序 提供 了 进行 便利 交互 的 机 制 ， (3) 提供 
了 能 利用 高 层 抽象 假设 的 优化 工具 。 


9.4 小 结 


在 本 章 中 ， 我 们 逐一 评价 了 第 6 章 至 第 8 章 中 所 提 及 的 程序 设计 方法 。 我 们 的 目的 不 是 从 
中 选 出 获胜 者 和 失败 者 ， 而 是 将 那些 读者 已 经 注意 到 的 特征 明确 化 。 每 个 程序 设计 工具 都 有 
自己 的 优 缺 点 ， 也 都 有 一 群 忠实 的 程序 员 拥护 者 ， 他 们 会 为 自己 所 钟爱 的 方法 热情 地 辩护 。 
在 本 章 的 最 后 ， 我 们 总 结 了 本 书 中 的 一 些 经 验 ， 并 建议 了 未 来 语言 必 备 的 一 些 重要 性 质 

通过 了 解 并 行程 序 设计 的 现状 ， 我 们 确信 未 来 的 新 语言 和 新 程序 设计 抽象 将 会 简化 并 行 
程序 员 的 工作 。 第 10 章 将 简要 介绍 其 中 一 些 有 前 途 的 新 想法 。 


历史 回顾 
Deitz[2004] 介 绍 了 P 独 立 ， 虽 然 旱 在 未 命名 之 前 ， 这 个 概念 就 作为 函数 式 并 行 语言 的 优点 
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为 人 所 知 了 。Cilk 是 由 Leiserson 领 导 的 团队 在 MIT 开 发 的 [1995]。 

习题 

1. 应 用 第 5$ 章 中 用 户 自 定 义 归 约 的 概念 ， 编 写 一 个 P 相 关 的 并 行 归 约 。 该 并 行 归 约 应 具有 能 统计 出 
参与 计算 的 处 理 器 数量 的 特性 。 

2. 在 参考 文献 中 找 出 一 个 并 行程 序 设计 语言 的 描述 ， 并 判断 它 是 否 是 忆 独立 的 。 

3. 找 出 5 种 在 本 书 中 提 及 但 并 未 在 本 章 中 分 析 的 并 行程 序 设 计 抽象 ， 然 后 判断 它们 是 全 局 视图 抽象 
还 是 局 部 视图 抽象 ， 每 个 分 类 至 少 包 含 1 个 抽象 。 


4. 回忆 第 1 章 中 统计 3 的 例子 ， 思 考 它 为 何不 能 达到 8 倍 并 行 加 速 。 考 虑 在 何 种 情况 下 ， 程 序 能 达到 
更 高 的 加 速 比 ? 


| 第 四 部 分 ” 展 ta 
| O ix 二 二 


Facey op7 J 


在 学 习 并 行 计算 的 通用 原理 和 各 种 语言 特殊 细节 之 后 ， 我 们 现在 把 目光 转向 未 来 ， 将 从 
社区 和 个 人 两 方面 来 加 以 观察 。 并行 计算 这 一 快速 发 展 的 领域 为 我 们 提供 了 许多 新 的 机 会 。 

对 并 行程 序 员 来 讲 ， 最 感 兴趣 的 是 那些 能 简化 我 们 开发 程序 的 新 研究 。 而 诸如 事务 存储 
名 的 抽象 以 及 新 的 并 行程 序 设计 语言 就 属于 这 种 新 的 研究 领域 ， 这 将 是 第 10 章 的 主要 论题 。 
我 们 也 感 兴趣 于 那些 能 为 应 用 并 行 性 提供 显著 机 遇 的 硬件 系统 ， 将 对 某 些 流行 的 系统 仔细 研 
究 ， 如 用 于 个 人 计算 的 附属 处 理 器 和 以 网 格 为 代表 的 巨大 系统 。 在 第 10 章 的 最 后 ， 我 们 将 控 
究 新 出 现 的 计算 范例 MapReduce， 以 及 三 种 新 兴 的 程序 设计 语言 ， 它 们 的 目的 是 为 了 提高 程 
序 员 的 生产 率 。 

从 通用 转向 个 人 ， 我 们 为 编号、 调试 和 度量 并 行程 序 提出 了 一 些 指导 方针 。 虽 然 第 11 章 
是 最 后 一 章 ， 但 我 们 建议 学 生 在 学 习 并 行 计算 的 早期 先 学 习 这 一 章 。 这 些 指导 方针 尽管 是 为 
了 结 课 课程 设计 而 构思 的 ， 但 它们 对 于 编写 每 章 习 题 中 的 简单 程序 同样 具有 指导 意义 
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伟大 的 尼 尔 斯 : 玻 尔 曾 说 过 “预测 是 件 难 事 ， 特 别 是 对 于 未 来 "。 这 句 话 在 并 行 计算 中 特 
别 真实 ， 因 为 研究 人 员 和 供应 商 经 常 吹捧 一 些 “ 银 弹 (silver bullet)”9 解 决 方案 ,但 最 终 往 
往 并 不 成 功 。 在 本 章 中 将 讨论 我 们 选择 的 几 个 正在 开发 的 概念 。 由 于 如 玻 尔 所 说 预测 未 来 是 
困难 的 ， 我 们 并 不 是 宣称 这 些 是 最 有 前 途 的 主题 。 但 不 管 如 何 ， 它 们 已 经 相当 “热门 "， 因 此 
读者 有 必要 有 所 熟悉 。 


10.1 附属 处 理 器 


随 着 通用 微 处 理 器 变 得 越 来 越 复杂 和 功 耗 越 来 越 大 ， 因 此 长 期 以 来 已 经 认识 到 ， 在 通用 微 
处 理 器 上 倾注 如 此 多 的 精力 可 能 是 低 效 的。 相反 ， 专 用 的 处 理 器 可 能 功能 更 强大 且 节 省 空间 ， 
因此 尽 可 能 地 印 载 更 多 的 工作 到 专用 的 附属 处 理 器 就 显得 
很 有 意义 。 使 用 附属 处 理 器 并 不 是 新 事物 ， 早 期 的 微 处 理 。 ” 主 
器 就 卸载 一 部 分 工作 给 浮 点 协同 处 理 器 。 现 代 的 “附属 处 
理 器 ”术语 暗示 两 个 处 理 器 间 的 不 对 称 性 质 ， 表 明 附 属 处 
理 器 是 代表 主 处 理 器 完成 工作 (参见 图 10-1)。 图 10-1 附属 处 理 器 

像 浮 点 协同 处 理 器 一 样 ， 当 今 的 附属 处 理 器 可 以 视 为 
是 求解 密集 计算 任务 的 专用 引擎 。 主 处 理 器 与 附属 处 理 器 并 发 运行 并 不 是 并 行 性 的 主要 来 源 。 
相反 ， 通 常 大 量 的 并 行 性 嵌入 在 附属 处 理 器 中 ，。 

虽然 也 提出 了 这 种 结构 的 其 他 实例 , 包括 附属 于 通用 处 理 器 的 现场 可 编程 门 阵列 (FPGA), 
本 小 节 将 焦点 聚集 到 以 下 两 个 体系 结构 ， 

。 附 属于 一 个 标准 处 理 器 的 图 形 处 理 部 件 

*。 有 8 个 附属 处 理 器 和 一 个 戏 入 式 Power PC 主 处 理 器 的 Cell 处 理 器 


10.1.1 图 形 处 理 部 件 


在 图 形 处 理 部 件 (GPGPU) 上 完成 通用 计算 的 概念 近来 已 经 很 流行 ， 这 是 因为 GPU 具有 
很 高 的 性 能 和 性 能 价格 比 。 例 如 ， 比 较 nVidia GeForce 8800 和 Intel Core2 Duo， 我 们 可 以 看 
到 GPU 有 大 约 10 倍 的 浮 点 CPU 能 力 (367 GFLOPS 对 32 GFLOPS) 以 及 大 约 10 倍 的 存储 器 带 
宽 (86.48 GB/s 对 8.4 GB/s) 。 此 外 ，GPU 性 能 的 改进 速率 比 通用 微 处 理 器 性 能 的 改进 要 快 ， 
大 约 是 每 6 个 月 性 能 就 增加 一 倍 ， 显 著 地 快 于 通用 微 处 理 器 的 改进 ， 如 图 10-2 所 示 。 由 于 
GPU 的 可 编程 性 正在 不 断 增长 ， 因 此 了 解 它们 的 优 缺点 以 及 将 它们 作为 通用 计算 的 前 景 是 明 
智之 举 。 

GPU 之 所 以 能 提供 如 此 好 的 性 能 有 以 下 几 个 理由 。 从 经 济 上 讲 ，GPU 的 性 能 需求 是 由 大 
型 视频 游戏 工业 驱动 的 。 从 技术 上 讲 ，GPU 是 专门 处 理 图 形 绘制 的 ， 是 一 种 具有 大 量 数据 并 
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行 的 密集 计算 应 用 。 为 此 GPU 能 很 容易 地 通过 增加 更 多 的 处 理 核 来 改进 浮 点 性 能 。 此 外 ， 
GPU 可 以 极 大 地 忽略 许多 通用 处 理 器 必须 处 理 的 问题 ， 包 括 为 顺序 代码 保持 流水 线 的 畅通 等 。 
这 样 GPU 就 节省 了 从 事 转 移 预 测 、 高 速 缓 存 和 指令 调度 工作 所 需 的 大 量 晶体 管 。 
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G80 = GeForce 8800 GTX 

G71 = GeForce 7900 GTX 

G70 = GeForce 7800 GTX 
NV40 = GeForce 6800 Ultra 
NV35 = GeForce FX 5950 Ultra 
NV30 = GeForce FX 5800 








图 10-2 随时 间 变 化 的 GPU 和 CPU 性 能 


GPU 对 图 形 流水 实现 硬件 支持 ， 它 将 定义 几何 图 形 的 顶点 表 作 为 输入 ， 而 将 帧 缓冲 区 中 
的 图 像 发 射 作为 输出 。 顾 名 思 义 ， 在 该 流水 线 中 还 有 几 个 中 间 级 ， 均 是 完成 与 图 形 有 关 的 操 
作 (参见 图 10-3)。 通 常 ， 有 一 级 将 顶点 从 对 象 空间 映射 到 屏幕 空间 ， 另 一 级 光栅 化 三 角形 ， 
产生 构成 像素 值 的 片段 ， 再 有 一 级 是 完成 明暗 处 理 和 纹理 处 理 。 当 然 ， 这 里 的 讨论 是 对 实际 
过 程 的 简化 ， 而 这 种 过 程 随时 间 在 不 断 变化 。 


TARE PY 顶点 处 理 器 S 光栅 化 器 /7 片段 处 理 器 /| MEE 
纹理 映射 


图 10-3 图 形 流水 线 


时 期 的 GPU 只 关注 对 图 形 学 的 支持 ， 这 种 系统 有 一 个 固定 功能 的 图 形 流水 线 硬件 实现 。 
这 些 早 期 的 GPU 只 支持 单 精度 浮 点 操作 ， 没 有 双 精 度 浮 点 和 整数 操作 ， 也 没有 位 处 理 操作 。 
但 是 随 着 时 间 的 变迁 ， 由 于 游戏 开发 者 寻找 以 不 同方 式 使 用 硬件 ， 硬 件 的 可 编程 性 越 来 越 高。 
其 结果 是 GPU 趋 向 于 支持 更 通用 的 计算 。 例 如 ， 下 一 代 的 nVidia GeForce 卡 将 支持 双 精 度 浮 点 
和 整数 操作 。 

如 果 我 们 去 掉 某 些 术语 ， 一 个 现代 的 GPU 犹如 一 个 具有 片 内 DRAM 的 大 规模 细 粒 度 多 核 
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芯片 (参见 图 10-4)。 例 如 ，nVidia GeForce 8800 有 8 个 核 (图 10-4b 的 副本 ) ， 每 个 核 由 16 个 
SIMD 处 理 器 组 成 ， 这 表明 这 些 处 理 器 以 锁 步 方式 运行 。 

虽然 硬件 的 实现 通常 是 SIMD ， 但 程序 设计 模型 并 非 如 此 ， 就 Compute Unified Device 
Architecture (CUDA， 计 算 统一 部 件 体系 结构 ) 语言 而 言 ， 它 几乎 是 C 程 序 设计 语言 的 完整 子 
集 。 不 管 如 何 ，GPU 的 能 力 在 于 它 能 完成 大 规模 并 行 浮 点 计算 。 如 同 其 他 的 多 核 芯片 一 样 ， 
一 个 标准 的 范例 是 ， 使 用 多 处 理 器 对 输入 的 数据 块 进行 尽 可 能 多 的 处 理 ， 然 后 再 装载 新 的 数 
据 块 。 
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图 10-4 ME: a) 常 规 的 4 核 多 核 系 统 ，b) 含 有 16 个 处 理 ALU 部 件 的 ( 单 ) GPU 核 ， 该 核 在 芯片 上 将 被 复制 


作为 可 为 GPU 编写 各 种 不 同 应 用 程序 的 一 个 提示 ，CUDA 开 发 者 工具 包 ( 见 网 页 http: 
//developer.nvidia.com/object/cuda.html) 给 出 了 以 下 用 CUDA 编 写 的 程序 例子 ， 
。 并 行 双 调谐 排序 


© 矩阵 乘法 
“ 和 矩阵 转 置 
" 大 型 数组 的 并 行 前 级 求 和 “(扫描 ) 
“ 图像 卷 积 


* 使 用 Haar 小 波 的 一 维 离散 小 波 变 换 

e CUDA BLAS 和 FFT 库 使 用 举例 

。 二 项 式 期 权 定价 (Option Pricing) 

。Black-Scholes 期 权 定价 

© 蒙特 卡 罗 期 权 定价 

。 并 行 Mersenne Twister (随机 数 发 生 器 ) 

。 并 行 直方 图 

。 图像 降 噪 

。Sobel 边 缘 检 测 滤 波 器 

总 之 ， 随 着 用 户 社区 不 断 增长 (参见 www.gpgpu.org) ，GPU 的 通用 计算 使 用 非常 有 前 途 。 
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10.1.2 Cell 处理 器 


Cell ( 胞 元 ) 处 理 器 是 索尼 、 东 芝 和 IBM 三 家 的 联合 研究 项 目 ， 目 的 在 于 生产 功能 强大 、 
支持 交互 视频 游戏 的 部 件 。 如 图 10-5 所 示 的 Cell 体 系 结构 ， 包括 一 个 标准 的 含有 L1 和 L2 cache 
的 PowerPC 以 及 8 个 SPE 或 “协作 处 理 单元 ” (synergistic processing element) , 这 些 SPE 是 功能 
强大 的 SIMD 机 器 ， 每 个 周期 能 执行 4 个 单 精度 浮 点 操作 。EIB 或 “单元 互 连 总 线 ”(element 
interconnect bus) 支持 大 量 的 片 内 通信 ， 名 义 上 的 带宽 超过 300 GB/s, 但 在 监听 时 带宽 受 限 ， 
略为 超过 200 GB/s。 最 后 ，Cell 系 统 的 主 存 有 很 大 的 带宽 ， 














图 10-5 _ Cell 处理 器 的 平面 图 


Cell 在 Linux 操 作 系 统 环境 下 用 C/C++ 语言 进行 编程 。 目 前 支持 Cell 程 序 员 的 工具 比较 有 限 ， 
对 于 如 矩阵 乘法 那样 的 标准 计算 ， 使 用 Cell 的 早期 实验 表明 ， 它 能 从 该 世 片 中 得 到 绝 大 部 分 的 
理论 性 能 。 但 是 能 达到 这 种 性 能 的 程序 设计 的 成 果 是 肖 丧 的 。SPE 没 有 cache， 因 此 程序 员 必 
须 使 用 DMA 命 令 小 心地 管理 定时 和 数据 进出 芯片 的 数据 。 所 以 ， 双 缓 促 的 概念 对 于 达到 高 的 
性 能 非常 重要 。 双 缓冲 概念 是 指 当 一 个 缓冲 器 中 的 数据 块 正在 传送 时 ， 另 一 个 缓冲 器 中 的 数 
据 世 正在 计算 ， 这 是 重 登 通信 时 延 和 计算 的 一 种 形式 。 编 译 器 中 自动 完成 这 种 数据 移动 的 党 
试 到 目前 为 止 被 证 明 是 不 成 功 的 。 对 社区 的 一 个 挑战 是 开发 工具 和 和 语言 以 方便 对 这 种 特殊 
处 理 器 的 编程 。 


10.1.3 附属 处 理 器 的 总 结 
附属 处 理 器 很 吸引 人 ， 因 为 它们 的 专门 特性 能 提供 很 高 的 性 能 ， 减轻 了 主 处 理 器 的 计算 





208 PORD A F 


负载 以 及 和 存储 器 的 通信 量 。 但 是 ， 附 属 处 理 器 复杂 了 程序 设计 模型 (不 是 一 个 CTA 模 型 ) ， 
因为 它 要 求 程序 员 分 割 计 算 ， 小 心地 推断 附属 处 理 器 和 主 处 理 器 间 的 存储 器 通信 量 ， 而 且 经 
常 要 在 低级 的 硬件 细节 抽象 层 上 进行 编程 。 

虽然 附属 处 理 器 的 程序 设计 模式 似乎 与 本 书 中 的 其 他 方法 相当 不 同 ,但 有 迹象 表明 这 两 
个 世界 正在 趋同 。 例 如 ， 微 软 的 研究 人 员 已 经 提出 Accelerator (加 速 器 ) 语言 ， 它 能 将 一 个 
数组 语言 转换 成 GPU 的 片段 代码 。 虽 然 在 语言 的 早期 阶段 必须 对 数组 语言 的 表示 加 以 某 些 约 
束 ， 但 就 其 概念 而 言 是 有 前 途 的 。 另 一 个 例子 是 ， 编 程 GPU 的 语言 继续 接近 编程 通用 处 理 器 
的 语言 。 


10.2 网 格 计算 


由 于 高 性 能 计算 与 金融 服务 业 、 制 造 业 、 游 戏 业 等 各 行 各 业 的 关系 日 趋 紧 密 ， 激 发 了 越 
来 越 多 的 机 构 组 织 使 用 大 规模 并 行 计算 机 的 兴趣 。 但 是 ， 由 于 计算 机 的 维护 和 管理 的 成 本 越 
来 越 高 ， 因 此 让 一 个 机 构 自 己 拥有 和 维护 超级 计算 机 通常 是 非 经 济 有 效 的 ， 特 别 是 如 果 机 构 
的 计算 需求 时 常会 发 生变 化 的 话 。 在 这 些 情况 下 ， 外 购 计 算 就 是 值得 考虑 的 。 

为 与 这 种 趋向 相 一 致 ， 在 20 世 纪 90 年 代 出 现 了 计算 网 格 的 概念 。 术 语 “ 计 算 网 格 ” 
(computing grid) 使 人 想起 类 似 的 术语 电力 网 格 ， 电 是 一 种 任何 人 可 以 使 用 的 资源 ， 不 必 在 
意 电 是 如 何 获得 和 传输 的 细节 。 计 算 网 格 将 类 似 地 提供 计算 能 力 但 向 用 户 隐藏 了 许多 细节 。 
由 于 经 济 规模 导致 的 潜在 经 济 有 效 性 ， 现 在 至 少 已 有 十 几 个 国家 开展 了 国家 级 的 网 格 计算 研 
究 项 目 。 

当然 计算 网 格 的 规模 有 大 有 小 ， 也 许 是 在 一 个 公司 内 运行 ， 也 可 能 跨 多 个 公司 ， 甚 至 跨 
一 个 地 区 或 一 个 国家 。 总 的 一 个 目标 是 创建 一 个 计算 资源 它 将 大 于 它 的 各 个 部 分 的 总 和 。 例 
如 ， 可 以 想象 一 个 含有 各 种 各 样 特殊 硬件 (从 巨型 存储 库 到 如 望远镜 那样 的 强 功 能 科学 仪器 
的 一 切 事物 ) 的 计算 网 格 ， 如 果 让 任何 的 一 个 机 构 单独 购买 的 话 将 是 非常 昂贵 的 。 即 使 不 含 
有 专用 的 硬件 ， 一 个 网 格 所 提供 的 峰值 计算 能 力 将 远 远 超 过 任何 单个 机 构 所 能 提供 的 。 

为 了 形成 经 济 规模 ， 网 格 经 常 由 跨越 大 地 理 范 围 和 跨 多 个 行政 管辖 范畴 在 物理 上 分 布 的 
资源 所 组 成 【例如 资源 可 能 为 不 同 的 机 构 所 拥有 )。 到 目前 为 止 ， 大 部 分 的 活动 主要 是 致力 于 
构造 基础 设施 和 定义 标准 以 准许 网 格 的 创建 和 使 用 。 当 然 这 些 问 题 要 远 比 电力 网 格 复杂 ， 因 
为 与 计算 服务 的 接口 远 比 与 电 的 接口 更 加 宽广 。 

为 了 改进 整个 系统 的 利用 率 ， 大 多 数 计算 网 格 是 多 道 程序 化 的 ， 并 具有 进行 动态 资源 分 
配 的 能 力 。 这 种 情景 与 通常 的 超级 计算 环境 不 同 ， 后 者 以 批 处 理 模式 运行 客户 程序 ， 并 用 成 
组 调度 使 客户 计算 间 的 冲突 最 小 化 。 l 

与 分 布 系统 一 样 ， 计 算 网 格 面临 许多 相同 的 由 分 布 计算 社区 所 提出 的 问题 : 

* 资源 管理 

* 可 用 性 

* 透明 性 

© 异 构 性 

* 可 扩展 性 

* 容错 

* 安全 性 

* 隐私 性 
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然而 ， 由 于 网 格 计算 的 用 户 感 兴趣 于 并 行 计 算 ， 因 此 它 还 有 性 能 和 应 用 可 扩展 性 的 附加 
问题 。 并 行 和 分 布 计 算 的 汇合 引入 了 某 些 有 关 网 格 效率 及 其 应 用 的 一 些 有 兴趣 的 技术 问题 ， 
这 些 问 题 包括 : 

“ 不同 客户 程序 间 的 冲突 将 使 每 个 程序 的 效率 降低 多 少 ?特别 是 使 一 个 进程 性 能 退化 的 冲 

突 可 能 产生 一 个 影响 其 他 进程 的 涟 满 效 应 , 因为 其 他 进程 必须 与 该 退化 的 进程 进行 交互 。 

在 最 坏 的 情况 下 ， 将 会 出 现 这 样 一 种 情景 ， 即 茶 些 处 于 闲置 的 进程 正在 等 待 菜 些 重负 载 

进程 所 产生 的 事件 。 可 以 使 用 什么 样 的 技术 使 这 种 性 能 的 衰退 降 至 最 小 ? 

* 程序 员 如 果 不 知道 目标 平台 的 细节 能 编写 出 高 效 的 程序 吗 ? 就 目前 的 实践 经 验 而 论 ， 许 

多 程序 是 专门 为 特定 的 硬件 平台 而 编写 的 (我们 不 推荐 这 样 做 ) ， 在 程序 进入 生产 模式 

前 ， 至 少 通常 应 有 某 些 目标 专用 的 优化 。 

“如果 不 能 看 到 一 个 一 致 的 可 重复 计算 资源 集 ， 程 序 员 如 何 调试 、 开 发 和 优化 他 们 的 程 

F? 当然 ， 使 用 P- 独 立 语言 将 有 助 于 问题 的 解决 ， 但 这 些 语言 还 未 标准 化 。 

À. 用 户 如 何 判 断 低 效率 是 由 网 格 引 起 的 还 是 由 于 用 户 程序 本 身 的 低 效 引起 的 ? 

* 如 何 能 简化 自省 (introspective) 程序 的 生成 ， 这 种 自省 程序 能 自行 优化 和 重 构 以 适应 

变化 的 计算 环境 ? 


10.3 事务 存储 器 


几 十 年 来 ， 数 据 库 通 过 使 用 事务 的 概念 处 理 并 发 问题 ， 因 此 询 间 是否 可 将 类 似 的 概念 应 
用 到 共享 存储 器 并 行程 序 的 存储 器 操作 中 就 是 有 意义 的 。 事 务 存 储 器 (TM, Transactional 
Memory) 领域 中 的 活跃 研究 近来 也 已 提出 类 似 这 样 的 问题 。 在 本 节 中 我 们 将 介绍 事务 存储 器 
主要 基本 概念 ， 还 将 叙述 TM 为 何 能 克服 基于 锁 机 制程 序 的 许多 缺点 ， 此 外 ， 我 们 也 将 指出 某 
些 尚 未 解决 的 重要 问题 。 

一 个 数据 库 事务 在 修改 数据 时 将 保证 称 为 ACID (原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 ) 的 
四 个 特性 。 原 子 性 〈atomicity) 表示 事务 的 所 有 操作 完成 或 未 完成 。 一 致 性 (consistency) 是 
一 个 与 应 用 相关 的 概念 ， 是 指 存储 器 的 更 新 就 好 像 操 作 以 某 种 串 行 次 序 方 式 完成 一 样 ， 隔 离 性 
(isolation) 是 指 事务 操作 的 结果 等 同 于 一 个 隔离 执行 的 结果 ， 就 如 同 不 存在 其 他 的 事务 ， 持 入 
(durability) 是 指 由 事务 操作 引起 的 改变 将 是 持续 的 。 但 程序 不 需要 持久 性 ， 因 为 当 程序 退 
出 时 它 的 存储 器 状态 就 消失 了 ， 所 以 在 TM 系统 中 的 事务 只 有 原子 性 、 一 致 性 和 隔离 性 ， 

在 一 个 TM 系统 中 ， 需 要 由 程序 员 来 识别 事务 ， 而 系统 (不论 是 由 硬件 还 是 软件 实现 ) 则 
通过 追踪 对 存储 器 的 装载 和 存储 的 操作 以 及 检测 可 能 违反 事务 特性 的 冲突 ， 来 保证 事务 语义 
的 实现 。 如 果 事 务 成 功 完成 ， 就 说 它 已 提交 (commit) ， 否 则 它 就 异常 中 止 (abort) ， 昌 不 
会 观察 到 任何 副作用 。 

事务 存储 器 简化 了 程序 设计 ， 因 为 程序 员 所 感觉 的 事务 操作 是 顺序 化 的 且 没 有 与 其 他 线 
程 交 互 的 可 能 性 。 与 基于 锁 的 程序 相 比 ，TM 有 许多 优点 。 特 别 是 事务 具有 可 扩展 、 可 复合 、 
无 死 锁 以 及 易于 使 用 的 特点 。 

具体 的 讲 ， 事 务 将 为 某 种 语言 构造 所 识别 ， 如 约束 事务 范围 的 原子 区 域 。 例 如 ， 在 统计 3 
的 例子 中 ， 对 共享 变量 count 的 更 新 可 按 如 下 方式 实现 ， 


atomic 


{ 


count+=private_count; 


} 
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atomic 区 域 与 Java 中 的 synchronized (同步 ) 语句 (参见 第 6 章 ) 有 惊人 的 相似 之 处 : 
synchronized 


{ 
countt=private_ count; 


} 

这 里 的 关键 词 synchronized 识 别 出 该 语句 是 一 个 临界 区 ， 所 以 将 以 互 斥 方式 加 以 执行 。 由 
于 这 个 例子 过 于 简单 ， 因 此 很 难说 清 两 者 之 间 的 区 别 ， 但 下 一 小 节 将 通过 与 基于 锁 的 临界 区 
的 比较 来 解释 事务 的 优点 。 


10.3.1 与 锁 的 比较 


从 第 9 章 中 我 们 可 以 看 到 ， 基 于 锁 的 程序 设计 受到 好 几 个 问题 的 困扰 。 现 在 再 来 讨论 这 些 
问题 并 解释 事务 存储 器 是 如 何 解 决 这 些 问题 的 。 

第 一 ， 锁 可 能 导致 死 锁 。 事 务 则 不 会 死 锁 ， 它 们 要 么 提交 要 么 异常 中 止 。 当 然 ， 有 可 能 
出 现 活 锁 ， 它 是 指 由 于 反复 地 蜡 常 中 止 使 得 事务 无 法 前 进 的 一 种 现象 。 

第 二 ， 锁 的 约束 过 于 严格 。 它 强制 操作 顺序 的 执行 ， 即 使 在 以 下 两 种 不 需要 的 情况 下 也 
为 如 此 : (1) 对 一 个 共享 存储 单元 进行 并 发 读 ， 以 及 (2) 对 不 同 的 存储 单元 进行 并 发 写 (或 
并 发 写 和 读 )。 与 此 相反 ， 事 务 存储 器 系统 能 检测 出 上 述 两 种 情况 并 允许 它们 并 发 地 执行 。 

第 三 ， 锁 面临 粒度 的 协调 问题 ， 粗 粒度 的 锁 将 限制 并 发 性 ， 从 而 也 限制 了 可 扩展 性 ， 而 
细 粒 度 的 锁 则 难于 推断 ， 因 为 存在 死 锁 的 可 能 。 对 于 事务 存储 器 ， 如 果 程 序 员 定义 了 大 的 原 
子 段 ， 系 统 将 允许 执行 多 线程 只 要 它们 对 存储 器 的 访问 不 发 生 冲 突 ， 因 此 事务 比 锁 有 更 好 的 
可 扩展 潜力 。 当 然 ， 大 型 的 事务 并 不 完全 自由 ， 因 为 它们 迫使 TM 系 统 去 追踪 大 量 的 装载 和 存 
储 操作 。 

现在 可 以 看 到 一 个 原子 段 和 Java 的 同步 化 语句 之 间 的 差别 。 如 果 要 对 一 个 已 有 的 方法 
( 它 可 能 表示 某 种 不 定 的 大 量 代 码 ) 提供 互 斥 ， 同 步 化 语句 将 使 整个 方法 的 执行 串 行 化 ， 而 原 
子 区 域 则 要 求 系统 不 允许 在 该 区 域 中 的 存储 器 访问 发 生 冲 突 。 因 此 ， 事 务 比 锁 能 更 好 地 调节 
并 发 性 的 颗粒 度 。 

第 四 ， 锁 不 能 很 好 地 复合 。 例 如 ， 如 果 访 问 数据 的 两 个 方法 以 不 同 的 顺序 获取 细 粒 度 的 
锁 ， 将 它们 组 合 在 一 起 则 可 能 引起 死 锁 。 对 于 事务 存储 器 ， 所 有 的 相关 是 动态 检测 和 处 理 的 ， 
所 以 不 存在 静态 顺序 获取 锁 的 概念 。 

从 根本 上 讲 ， 我 们 看 到 锁 是 静态 地 说 明 一 个 实现 策略 ， 它 不 是 最 理想 的 ， 因 为 线程 的 实 
际 交叉 在 运行 时 间 之 前 是 无 法 知道 的 。 虽 然 近 期 的 工作 已 经 提议 用 硬件 在 运行 时 间 来 检测 可 
消除 锁 的 这 种 情况 ( 称 为 推测 锁 删除 ，Speculative Lock Elision) ， 但 推论 使 用 锁 的 依据 则 是 
它 是 静态 、 复 杂 和 非 复合 的 。 与 此 相 比 ， 事 务 存储 器 要 求 程 序 员 静态 地 提供 所 希望 的 语义 但 
允许 系统 动态 地 进行 实现 的 决定 。 当 然 ， 如 果 有 合适 的 语言 支持 ， 由 编译 器 进行 静态 分 析 能 
为 动态 系统 提供 有 潜在 价值 的 信息 ， 所 以 此 时 就 不 应 忽略 静态 信息 。 

10.3.2 实现 方法 

我 们 认为 事务 存储 器 的 使 用 比 锁 更 简单 且 能 提供 潜在 的 性 能 得 益 。 问 题 的 关键 在 于 TM 系 
统 如 何 能 有 效 地 实现 事务 。 要 完 完全 全 回答 这 一 问题 似乎 太 早 ， 但 在 本 小 节 最 后 讨论 某 些 未 
解决 的 问题 之 前 ， 我 们 将 简单 地 总 结 设计 问题 的 空间 。 

一 个 TM 系 统 必 须 完成 两 个 基本 操作 : 一 是 当 不 同 的 线程 访问 存储 器 时 ， 它 必须 能 检测 冲 
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R: 二 是 它 必须 提供 一 个 机 制 以 隔离 一 个 事务 的 结果 直至 它 提交 或 异常 中 止 。 这 就 是 通常 所 
说 的 冲突 检测 《conflict detection) 和 数据 版 本 (data versioning), 

冲突 检测 检查 是 否 有 两 个 线程 访问 同一 个 存储 单元 ， 且 其 中 至 少 有 一 个 操作 正 欲 修改 该 
单元 。 要 检测 这 种 冲突 ，TM 系 统 必须 对 每 一 个 事务 的 读 集 和 写 集 进行 跟踪 。 冲 罕 检 测 可 以 以 
悲观 或 乐观 的 方式 进行 。 

慧 观 的 冲突 检测 方式 采用 尽 可 能 早 地 检测 冲突 策略 ， 以 避免 浪费 所 做 的 工作 。 在 检测 到 
一 个 冲突 时 ， 它 或 是 立刻 异常 中 止 一 个 事务 ， 或 是 停顿 其 中 一 个 事务 ， 以 防止 其 完成 违规 的 
访问 ， 并 希望 以 后 不 再 发 生 冲 突 。 另 一 方面 ， 悲观 的 方法 可 能 面临 周期 地 复发 冲突 从 而 导致 
不 能 继续 前 进 。 

乐观 的 冲突 检测 方式 假设 冲突 是 很 少 发 生 的 ， 所 以 它 延 迟 冲突 的 检测 直到 一 个 事务 快要 
结束 时 ， 此 时 该 事务 或 是 提交 或 是 异常 中 止 。 这 种 方法 当 冲 突 发 生 时 将 浪费 所 做 的 工作 。 它 
也 排斥 了 选择 停顿 一 个 线程 作为 解决 冲突 的 可 能 ， 因为 各 个 线程 很 可 能 已 经 通过 了 第 一 个 法 
在 的 冲突 向 前 执行 。 另 一 方面 ， 乐观 的 方法 能 通过 简单 地 提交 第 一 个 完成 的 事务 保证 前 行 。 

第 二 个 基本 机 制 维持 多 个 数据 版 本 ， 从 而 可 使 事务 或 是 回 滚 或 是 提交 。 同 样 ， 它 也 有 两 
个 基本 方法 急切 (eager) 和 滞后 (lazy)。 

当 使 用 急切 版 本 方法 时 ， 系 统 保留 老 版 本 的 数据 ， 所 以 它 可 将 新 的 值 写 人 存储 器 。 如 果 
提交 的 可 能 性 较 高 ， 则 读 方 法 的 速度 就 较 快 ， 但 是 异常 中 止 就 会 较 慢 ， 因 为 必须 通过 遍历 保 
留 值 的 表 才 能 恢复 事务 的 状态 。 

当 使 用 滞后 版 本 方法 时 ， 新 的 值 将 被 保留 在 缓冲 器 中 ， 老 的 值 则 没有 变化 。 因 此 异常 中 
止 的 工作 速度 就 较 快 ， 而 提交 就 会 较 慢 ， 因为 必须 从 写 缓冲 器 中 拷贝 值 。 该 方法 还 有 一 个 附 
加 的 开销 ， 因为 当 要 进行 读 时 就 必须 搜索 相关 的 写 缓冲 器 以 获取 新 的 值 ， 

设计 空间 的 另 一 个 方面 是 协调 冲突 检测 的 颗粒 度 ， 它 可 以 在 对 象 级 、cache 行 级 或 字 级 上 
完成 。 这 些 选 择 将 依据 : (1) 冲突 检测 数据 版 本 的 开销 和 (2) 假 冲突 可 能 性 (类 似 于 假 共享 ) 
这 两 点 进行 不 同 的 协调 。 


10.3.3 未 解决 的 问题 


除了 刚才 我 们 所 提 及 的 许多 实现 问题 以 外 ， 现在 来 探讨 有 关 事 务 存储 器 的 一 些 未 解决 的 
问题 。 

“LO 的 操作 是 有 问题 的 ， 因 为 1O 部 件 不 在 TM 系 统 的 回 退 机 制 管辖 之 内 ，， 所 以 它们 的 操 
作 不 能 够 取消 。 类 似 地 ， 与 遗留 代码 的 交互 也 有 问题 ， 因为 这 些 代 码 还 未 分 解 成 事务 。 
* 冲突 检测 被 定义 在 低级 操作 上 ， 即 装载 和 存储 ， 所 以 TM 系 统 不 能 够 区 别 结 构 冲 突 和 语 
义 冲突 。 为 了 了 解 这 一 问题 ， 考 虑 递增 计数 器 的 两 个 事务 。 从 语义 上 讲 ， 只 要 每 个 操作 
确实 更 新 该 计数 器 (与 更 新 寄存 器 中 的 值 相 对 比 )， 这 两 个 事务 能 合法 地 交叉 它们 的 递 
增 。 然 而 ，TM 系 统 将 不 允许 许多 这 种 语义 上 合法 的 交叉， 因为 装载 和 存储 的 排序 将 指 
明 这 是 一 个 冲突 。 而 这 种 差别 将 强 使 TM 系统 异常 中 止 许 多 并 不 需要 异常 中 止 的 事务 
“已 提议 采用 开放 式 虚 套 事务 来 处 理 上 述 的 两 个 问题 。 开放 式 幅 套 事务 实质 上 是 提供 一 个 
脱离 TM 系统 的 机 制 ， 但 将 引入 与 开放 式 幅 套 事务 与 TM 系统 之 间 的 交互 相关 的 复杂 和 基 

本 的 问题 。 
"长 时 间 运 行 的 事务 是 有 问题 的 。 在 某 些 实现 策略 下 它们 可 能 永远 不 提交 。 另 一 方面 ， 如 
果 授 予 它们 有 比 短期 运行 的 事务 更 高 的 优先 级 ， 它们 可 能 使 许多 其 他 的 线程 严重 地 衰减 
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性 能 。 在 数据 库 领 域 中 ， 长 时 间 运 行 的 事务 通常 用 特殊 语义 对 它们 进行 处 理 ， 或 是 使 它 
们 运行 在 另外 的 系统 中 。 现 在 仍 不 清楚 如 何 将 这 些 解 决 方法 转换 到 事务 存储 器 中 。 

“在 软件 事务 存储 器 (STM) 与 硬件 事务 存储 器 (HTM) 之 间 存 在 着 微妙 但 却 是 基本 的 
差别 ， 即 STM 不 能 简单 地 迁移 到 HTM。 从 实践 上 讲 ， 这 种 两 分 性 (dichotomy) 是 显著 
的 ， 因 为 理想 地 我 们 可 以 使 用 STM 去 构建 软件 基础 ， 用 事务 存储 器 获得 经 验 并 指导 
HTM 的 开发 。 但 是 由 于 它们 在 语义 上 的 差别 ， 这 种 迁移 是 不 可 能 的 。 

* 当然 事务 存储 器 并 不 试图 能 解决 所 有 与 并 行 性 能 有 关 的 问题 。 它 没有 涉及 局 部 性 的 问题 
或 减少 线程 间 交 互 的 问题 ， 因 此 另 一 个 开放 的 领域 是 事务 存储 器 与 并 行程 序 设 计 模 型 或 
并 行 语言 的 集成 ， 以 利于 获得 好 的 局 部 性 和 数据 的 移动 。 

总 之 ， 事务 存储 器 是 一 个 具有 潜在 利益 和 某 些 未 解决 问题 的 很 有 意思 的 研究 领域 。 

动态 乐观 的 并 行 化 ” 恰 如 事务 存储 器 建立 在 数据 库 的 串 行 化 执行 (等 价 于 某 种 顺序 执行 ) 

概念 上 一 样 ，Galois 系 统 将 此 概念 应 用 到 更 高 的 语义 层次 。 特 别 是 Galois 系 统 适 合 于 并 行 化 

数据 相关 性 不 能 静态 了 解 的 代码 ， 在 许多 基于 图 的 算法 中 就 是 这 种 情况 ， 例 如 Delauney 三 
角 化 。 该 语言 支持 乐观 的 并 行 化 ， 此 时 假设 应 用 中 计算 的 不 同 部 分 能 独立 地 进行 独立 性 

的 概念 是 基于 可 交换 性 , 就 如 抽象 数据 结构 上 的 操作 所 定义 的 ， 当 发 现 冲突 时 执行 就 回 滚 。 

Galois 系 统 的 一 个 重要 的 方面 是 它 具有 更 高 层次 特殊 数据 结构 的 可 交换 性 概念 ， 例如， 在 

一 个 共享 集 上 的 操作 可 交换 性 的 定义 是 基于 抽象 集 的 操作 而 不 是 低级 的 装载 和 存储 ， 


10.4 MapReduce 


并 行 计算 的 一 个 重要 发 展 是 基于 机 群 计算 的 大 量 增 加 ， 典 型 代表 是 Google 开 发 的 
MapReduce 设 施 。 根 据 Dean 和 Ghemawat 在 2004 年 的 描述 ， MapReduce 是 一 个 使 用 标准 化 插入 
式 的 框架 对 庞大 数据 档案 进行 搜索 的 工具 。Google 使 用 MapReduce 替 代 它 的 构建 索引 的 自主 
软件 ， 来 完成 诸如 计算 PageRank 的 操作 。 这 一 概念 已 被 广泛 使 用 ， 并 已 经 有 一 些 实现 ， 
MapReduce 的 名 称 源 自 LISP 和 其 他 函数 式 语言 中 的 映射 和 归 约 操作 。Map 运 算 符 将 对 表 中 的 
每 个 元 素 作用 某 个 函数 ， 而 reduce 运 算 符 则 组 合 一 个 表 中 的 元 素 ， 这 个 操作 符 已 在 本 书 中 论述 
多 次 。 术 语 MapReduce 现 在 已 通用 化 ， 它 也 适用 于 派生 的 系统 。 

除了 规模 以 外 ，MapReduce 框 架 与 第 4 章 中 的 Schwartz 算 法 以 及 第 5 章 中 的 定制 归 约 有 许多 
相似 之 处 。 但 这 里 关键 是 规模 ， 因 而 它 采 用 更 基于 流 的 观念 。 为 此 ， 假 想 一 颗 树 ， 其 中 叶子 
是 一 个 如 Web 页 面 分 布 式 文件 系统 中 的 磁盘 。 所 感 兴趣 的 计算 有 时 会 生成 单个 输出 值 ， 如 我 
们 所 知 的 归 约 计算 。 但 是 更 为 通用 的 是 它们 可 能 生成 值 表 (在 数据 库 中 相当 典型 )， 如 一 个 字 
表 以 及 每 个 字 在 文件 系统 中 出 现 的 次 数 。 

来 自 磁盘 的 数据 流 ， 用 map 函 数 进行 过 滤 ， 产 生 一 个 键 / 值 (key/value) 对 的 输出 流 。 例 
如 ， 如 果 该 任务 是 统计 字 的 出 现 次 数 ， 则 当 在 输入 中 遇 到 “dog” 时 ， 文 件 中 的 数据 将 被 转换 
成 如 < dog ,1> 的 对 流 。 键 / 值 对 将 流向 另 一 个 称 为 聚集 器 (aggregator) 的 计算 机 (参见 图 
10-6)， 它 将 对 这 些 键 / 值 对 分 类 。 然 后 聚集 器 对 流 应 用 归 约 函数 生成 汇总 流 。 对 于 统计 字 的 例 
子 ， 含 有 字 / 计 数 (word/count) 对 的 那些 表 进 行 归并 (同一 字 的 两 个 计数 进行 相 加 ) 产生 另 
一 个 字 / 计 数 对 表 ， 这 个 表 将 可 能 参加 进一步 的 聚集 。 归 并 是 一 个 典型 的 归 约 操作 ， 但 还 有 其 
他 更 为 复杂 的 归 约 操作 。 归 约 操作 的 输出 可 以 与 其 他 的 输出 进行 聚集 ， 形 成 一 个 层次 式 结构 
因而 能 处 理 大 量 的 数据 。 
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图 10-6 MapReduce 系 统 的 示意 图 


为 了 使 用 该 系统 ， 程 序 员 需 要 编写 简单 的 脚本 以 定义 映射 和 归 约 操作 ， 然 后 将 这 些 操作 
插入 MapReduce 框 架 。 下 面 考虑 一 个 例子 ， 它 要 求 处 理 许多 含有 记录 的 文件 集合 ， 其 中 每 个 
记录 为 一 个 浮 点 数 ， 而 该 浮 点 数 可 能 是 科学 实验 的 结果 或 是 所 观察 到 的 数据 。 所 期 望 的 输出 
是 记录 数 (count) 、 浮 点 数 的 和 (total) 以 及 浮 点 数 的 平方 和 (sum_of_squares) 。 这 一 计算 
用 Sawzall 系 统 (MapReduce 的 派生 系统 ) 编写 的 程序 如 下 ， 


count: table sum of int; 

total: table sum of float; 

sum_of squares: table sum of float; 
x: float=input; 

emit count <- 1; 

emit total <- x; 

emit sum_of_squares <- x*x; 


前 三 行为 聚集 器 声明 所 需 的 归 约 函数 ， 该 聚集 器 将 对 来 自 过 滤器 的 数据 进行 求 和 ， 保 留 
字 table 为 聚集 器 类 型 ， 在 这 里 它 仅 表示 单个 值 。 

其 余 的 语句 为 过 滤器 说 明 映射 操作 。 其 中 第 一 句 为 处 理 文件 的 记录 ( 绑 定 到 input 的 无 类 
型 的 字 贡 字符 串 ) ， 即 将 记录 转换 成 浮 点数 并 将 它们 赋值 给 x。 过 滤器 然后 向 聚集 器 发 射 王 个 
键 / 值 对 供 后 者 处 理 。 过 滤器 的 代码 对 所 有 文件 中 的 每 一 个 记录 进行 实例 化 。 

在 许多 实例 中 ， 有 机 会 在 过 滤器 和 第 一 轮 聚 集 之 间 进 行 中 间 级 的 优化 ， 这 一 优化 可 能 使 需 
传送 的 数据 总 量 大 为 减少 。 例 如 ， 前 面 的 字 统 计 例子 将 为 分 布 式 文件 系统 中 一 个 字 的 每 次 出 现 
发 射 一 个 键 / 值 对 ， 但 是 很 可 能 只 有 极 少 的 单字 ， 所 以 可 以 想象 用 一 个 归并 值 的 组 合 操作 来 实现 
数据 归 约 。 其 结果 是 ， 每 个 过 滤器 只 需 简单 地 向 聚集 器 发 送 一 个 单字 和 它们 的 字数 统计 的 表 ， 

MapReduce 既 是 并 行 计算 又 是 分 布 计算 。 它 利用 许多 计算 机 高 效 地 计算 一 个 特定 的 结果 ， 
但 是 由 于 其 规模 较 大 ， 因 此 分 布 计算 中 的 可 靠 性 、 可 用 性 等 问题 是 很 关键 的 。 也 许 强调 源 自 并 
行 性 的 计算 能 力 和 分 布 计算 的 挑战 性 两 者 之 间 平 衡 的 最 好 方法 是 引证 Pike[2005] 的 -- 段 话 ， 

我 们 在 2005 年 3 月 检测 了 [Sawzall] 的 使 用 。 在 这 段 时 间 中 ， 在 有 1500 个 Xeon CPU 的 专用 
Workqueue 机 群 上 共 发 动 了 32 580 个 Sawzall 作 业 ， 平 均 每 个 作业 使 用 220 个 机 器 ， 在 运行 这 些 
作业 时 共 出 现 18 636 次 故障 (GARE, APR RARE) 导致 作业 的 某 些 部 分 重新 
运行 。 作 业 共 读 入 数据 3.2 x 1055 字 节 (2.8PB) 和 写 入 9.9 x 10°F 4% (9.3TB) (KRIE “X 
据 归 约 ” 有 菜 种 影响 ) 。 所 以 每 个 作业 平均 处 理 大 约 100GB。 所 有 作业 共 使 用 了 几乎 相当 于 一 
个 机 器 在 一 个 世纪 内 所 使 用 的 数据 。 

除了 合并 了 并 行 和 分 布 计算 的 概念 外 ，MapReduce 展 示 了 一 种 处 理 大量 数 据 的 一 流 方法 ， 
在 这 种 数据 处 理 中 磁盘 的 访问 时 间 占 据 了 计算 的 主要 成 分 。 
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10.5 问题 空间 的 提升 

众所周知 分 而 治之 那样 的 算法 技术 能 指导 我 们 寻找 对 问题 的 高 效 解 ， 随 着 并 行程 序 设计 
的 进展 ， 我 们 期 待 有 新 的 适合 于 并 行 计算 的 程序 设计 技术 的 发 明 。 问 题 空 间 提升 (Problem 
Space Promotion) 技术 是 一 个 近期 的 例子 。 

问题 空间 提升 (PSP) 是 对 含有 数组 数据 组 合 (combinatorial) 交互 求解 问题 的 一 种 并 行 
求解 技术 。PSP 将 原来 在 4d 维 数据 上 操作 的 算法 重新 表示 为 在 具有 更 高 维 问题 空间 上 的 计算 。 
PSP 的 目的 是 在 一 维 或 多 维 上 复制 数据 以 达到 增加 并 行 性 和 减少 通信 和 同步 的 需求 ， 即 消除 相 
关 性 。 为 了 了 解 如 何 可 以 做 到 这 一 点 ， 设 想 一 个 求解 问题 ， 它 要 求 n 个 数组 值 必须 进行 全 交互 
的 配对 操作 。 一 种 解答 是 保持 两 份 数组 的 拷贝 ， 然 后 对 这 两 个 数组 中 的 相应 元 素 进行 操作 ， 
此 后 循环 地 移 位 其 中 的 一 个 数组 ， 在 n 次 移 位 后 ， 就 可 处 理 完 所 有 2 对 数据 的 交互 操作 。( 移 
位 的 表示 适合 于 分 布 式 存储 器 配置 ， 但 在 共享 存储 器 配置 中 ， 只 需 在 一 个 双重 内 套 循 环 中 分 
别 对 数组 进行 访问 就 可 达到 同样 的 效果 )。 另 一 个 具有 更 大 并 行 性 的 方法 是 创建 两 个 新 的 操作 
数 ， 甚 中 一 个 通过 复制 数组 行 形成 ， 另 一 个 则 通过 复制 数组 转 置 列 形成 ， 对 这 些 数组 元 素 的 
相应 对 进行 组 合并 对 所 有 这 些 对 同时 进行 操作 。 

为 了 进行 具体 的 说 明 ， 考 虑 如 何 对 有 z 个 不 同 数 的 数字 序列 进行 排序 ， 


C-ST<s 对 所 有 的 数 对 进行 比较 ， 若 为 真 置 !， 否 则 置 0 
P+sum_cols(C) ” 列 的 和 给 定 已 排序 索引 值 位 置 
S 一 S[P] 将 S 中 元 素 按 顺序 排列 


这 一 求解 需要 完成 平方 倍 的 工作 量 ， 因 为 它 要 完成 次 比较 。 虽 然 输 入 是 一 维 的， 但 操作 
是 在 二 维 数组 上 完成 的 ， 如 上 面 的 C。PSP 方 法 的 优点 是 它 指明 所 有 的 比较 可 以 独立 地 完成 且 
所 有 的 列 可 以 独立 地 求 和 ， 与 第 4 章 中 的 奇 -~ 偶 交 替 排 序 相 比 ， 该 方法 显著 地 增加 了 并 发 性 。 
细心 的 读者 将 会 发 现 该 计算 所 使 用 的 技术 与 在 第 8 章 所 使 用 的 排序 技术 相 类 似 ， 在 第 8 章 的 
ZPL 程 序 中 使 用 该 技术 对 咖啡 饮用 者 进行 分 类 ，ZPL 的 扩充 和 归 约 操作 符 很 适合 于 PSP 技 术 的 
使 用 。 

除了 排序 ， 许 多 O(n?) 操 作 可 以 表示 成 如 PSP 那 样 具有 更 少 相关 性 的 计算 。N 体 计算 是 其 中 
的 一 个 例子 ， 就 如 同 是 对 一 个 输入 集 方式 的 识别 。 此 外 ， 图 8-2 中 所 示 的 SUMMA 算 法 中 矩阵 
乘法 的 “点 积 步 ” 也 是 PSP 的 一 个 实例 ， 实 际 SUMMA 本 身 就 是 z 个 PSP 操 作 的 迭代 。 更 一 般 地 ， 
可 将 矩阵 乘积 看 成 是 一 个 3 维 的 PSP 计 算 。2 维 的 输入 矩阵 被 复制 (第 8 童 的 术语 为 扩充 ) 成 一 
个 3 维 “ 盒 ”， 将 所 有 的 到 对 值 放 置 在 一 起 。 然 后 这 些 盒 按 元 素 相 乘 ， 并 沿 第 3 维 求 和 得 到 结果 

我 们 所 强调 的 “提升 维 数 ”只 是 一 个 逻辑 概念 ， 一 个 程序 设计 的 抽象 将 给 程序 员 提供 一 
个 不 会 引入 相关 性 的 说 明 计 算 的 方法 。 与 其 他 在 较 低 层次 和 用 更 初级 的 术语 所 定义 的 计算 的 
技术 相 比 ， 借 助 销 除 相关 性 的 PSP 说 明 使 得 性 能 有 很 大 的 改进 。 


10.6 新 出 现 的 语言 
超级 计算 机 的 早期 研究 工作 主要 集中 在 硬件 方面 ， 而 软件 通常 是 大 量程 序 设计 努力 的 结 
采 。 在 认识 到 程序 员 的 生产 率 至 少 与 机 器 的 峰值 性 能 一 样 重要 后 ，DARPA 所 资助 的 高 生产 率 


计算 (HPC, High Productivity Computing) 计划 试图 开发 并 行程 序 设计 语言 以 改善 程序 员 的 
生产 率 。 在 几 轮 竞争 后 ，HPC 计 划 推 出 了 三 个 新 的 并 行程 序 设 计 语 言 (也 提出 了 新 的 硬件 ) ; 
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。Cray 公 司 开发 的 Chapel (Cascade High Productivity Language) 

e Sun Microsystems 公 司 开 发 的 Fortress 

* IBM 华 生 研究 中 心 开 发 的 X10 

这 些 语 言 还 未 完成 设计 和 实现 ,但 它们 提出 了 有 望 提高 并 行程 序 设计 生产 率 的 一 些 概念 。 
它们 是 开源 (open resource) 的 成 果 ， 可 以 使 用 它们 的 设计 规范 ， 下 面 我 们 对 以 上 的 三 种 语 
言 分 别 作 一 个 简短 的 介绍 。 


10.6.1 Chapel 


设计 多 级 高 生产 率 语言 (Cascade High Productivity Language) 的 Cray 公 司 团队 ， 对 在 高 
性 能 计算 中 占 统治 地 位 的 低级 的 “片段 ” 程序 设计 方法 提出 了 批评 (主要 是 消息 传递 )。 他 们 
要 达到 的 设计 目标 是 目标 码 的 性 能 可 与 低级 的 技术 相 比 较 ， 而 同时 通过 使 用 业经 证 明 的 高 层 
抽象 来 提高 生产 率 ， 这 种 高 层 的 抽象 得 到 了 先进 的 编译 技术 的 支持 (参见 图 10-7) 。Cray 公 司 
团队 对 Chapel 语 言 的 描述 如 下 ， 

Chapel 在 高 层次 上 支持 多 线程 并 行程 序 设计 模型 ， 这 是 通过 对 数据 并 行 、 任 务 并 行 以 及 
REAR Hae RMA, Chapel 借 助 对 数据 分 布 和 子 计算 的 数据 驱动 安置 ， 抽象 支持 程序 
中 的 数据 局 部 性 和 计算 的 优化 。 Chapel 还 借助 面向 对 象 的 概念 和 通用 的 程序 设计 特性 支持 代 
码 的 重用 和 通用 性 。 虽 然 Chapel 语 言 从 许多 以 前 的 语言 中 借鉴 了 不 少 概 念 ， 但 它 的 并 行 概 念 
则 非常 接近 于 高 性 能 Fortran (HPF)、ZPL 以 及 Cray 对 Fortran/C 的 MTA 扩 展 中 所 使 用 的 概念 ， 

chapel 设 计 的 指导 原则 基于 语言 技术 中 以 下 四 个 关键 领域 ， 多 线程 、 局 部 性 意识 
(locality-awareness)、 面 向 对 象 以 及 通用 程序 设计 9， 





for (str, span) in genDFTPhases(numElements, radix) { 
forall (bankStart, twidIndex) in (ADom by 2*span, 0..) { 
var wk2=W(twidIndex), 
wkl=W(2*twidIndex), 
wk3=(wk1l.re-2*wk2.im*wk1l.im, 
2*wk2.im*wkl.re-wkl.im):elemType; 
forall lo in bankStart+[0..str) do 
butterfly(wkl, wk2, wk3, A[[0..radix)*str+lo]); 
wkl=W(2*twidIndex+1); 
wk3=(wk1l.re-2*wk2.re*wkl.im, 
2*wk2.re*wkl.re-wk1.im):elemType; 
wk2*=1.0i; 
forall lo in bankStart+spant+[0..str) do 
butterfly(wkl, wk2, wk3, A[[0..radix)*str+lo]); 
} 
} 











def butterfly(wkl, wk2, wk3, inout A:{l..radix]) { ... 





图 10-7 用 Chapel 语 言 编写 的 一 维 FFT ( 基 一 4) 程序 代码 ,完整 的 代码 见 http://chapel.cs . washington . 
edu/ hpccOverview.pdf 


10.6.2 Fortress 


Sun Microsystems 公 司 的 团队 侧重 采用 创新 方法 来 解决 生产 率 的 问题 。 例如 ， 采 用 某 些 非 





9 http://chapel.cs .washington.edu/spec-0.750.pdf, 
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常 类 似 于 标准 数学 符号 的 表达 式 (参见 图 10-8)。 因此 所 形成 的 语言 是 与 我 们 通常 所 想到 的 并 
行 语言 大 不 相同 的 。 他 们 对 Fortress 语 言 作 了 如 下 的 描述 : 

在 Fortress 中 我 们 支持 如 事务 、 局 部 性 说 明和 隐 式 并 行 计算 等 特征 ， 并 将 它们 作为 一 个 束 
体 的 特征 构建 在 语言 的 核心 中 。Eortress 组 件 系统 和 测试 框架 的 特征 方便 了 程序 的 汇编 和 测试 ， 
并 使 得 强 功能 的 编译 器 能 跨越 库 的 边界 进行 优化 。 即 使 是 Fortress 的 句法 和 类 型 系统 也 是 为 用 
户 量 身 定制 成 现代 的 HPC 程 序 设计 ， 支 持 数学 符号 和 静态 特征 检查 ， 如 物理 单位 和 尺寸 、 多 
维 数 组 和 矩阵 的 静态 类 型 检查 以 及 特殊 范畴 语言 句法 在 库 中 的 定义 。 此 外 ，Fortress 在 设计 时 
已 考虑 到 这 是 一 个 “可 增长 ”的 语言 ， 它 能 得 体 地 支持 对 未 来 语言 特征 的 增加 。 事 实 上 ， 
Fortress 语 言 本 身 的 大 部 分 (甚至 包括 数组 和 其 他 基本 类 型 的 定义 ) 是 以 麻 的 形式 在 相当 小 的 
语言 核 上 进行 编码 的 。 

通过 寻找 全 新 的 表示 计算 的 方法 ，Fortress 语 言 建议 我 们 去 思考 如 何 能 以 最 好 的 方式 来 描 
述 问 题 中 的 并 行 性 。 











conjGrad [Elt extends Number, nat N, 
Mat extends Matrix [Elt, N x N], 
Vec extends Vector [Elt, N] 
]{A: Mat, x: Vec):(Vec, Elt) 
cgit nax = 29 
z:Vec=0 
r:Vec=x 
p:Vec=r 
r:Flt=rir 
for j — seq(1: cgit nax) do 
q= Ap 
-2 
p'a 
zi=zt+ap 
r:=r-Og 
Po =P 
p: =rir 
p 
B 一 po 
p:=r+Bp 
end 
(z |x - A 2[l) 
Po 





图 10-8 FAFortress ti 4a S MSE SER RETA ( 源 自 NAS 并 行 基准 测试 程序 套件 ) 
10.6.3 X10 


IBM 团 队 正 在 设计 的 X10 是 IBM 公 司 的 PERCS 项 目 (Productive Easy-to-use Reliable 
Computer Systems) 中 的 一 部 分 。 虽 然 X10 是 一 个 全 新 的 语言 (参见 图 10-9)， 但 它 非常 接近 
于 Javae ， 此 外 由 于 X10 也 是 一 种 PGAS 语 言 ， 因 此 它 可 以 与 Titanium 方 法 进行 比较 。 下 面 就 是 
X10 团队 对 其 方法 的 描述 : 


© nttp://research.sun.com/projects/plrg/faq/index.html, 
© http://domino.research.ibm.com/comm/research_projects.nsf/pages/x10.index.html/$FILE/ATTH4YZ4.pdf, 
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public class Jacobi { 
const int N=6; 
const double epsilon = 0.002; 
const double epsilon2 = 0.000000001; 
const region R = [0:N+1, O:N+1]; 
const region RInner= [1:N, 1:N]; 
const distribution D = distribution. factory.block(R); 
const distribution DInner = D | RInner; 
const distribution DBoundary = D ~ RInner; 
const int EXPECTED ITERS=97; 
const double EXPECTED ERR=0 .0018673382039402497; 
double[D] B = new double[D] (point pfi,j}) 
{return DBoundary.contains(p) 
? (N-1)/2 : N*(i-1)+(5-1); }; 
public boolean run() { 
int iters = 0; 
doublé err; 
while(true) { 
double[.] Temp = 
new double[DInner] (point [i,j]) 
{return (read(it+tl,j)+read(i-1,j) 
+read(i,j+1)+read(i,j-1))/4.0; }; 
if((err=((B | Dinner) - Temp).abs().sum()) 
< epsilon) 
break; 
B.update(Temp); 
iters++; 





} 
System.out.println("Error="+err); 
System.out.print1n("Iterations="titers); 
return Math.abs(err-EXPECTED ERR)<epsilon2 
&& iters==EXPECTED ITERS; 
} 
public double read(final int i, final int j) 4{ 
return future(D[i,j]) B[i,j].force(); 
} ， 
public static void main(String args[]) { 
boolean b= (new Jacobi()).run(); 
System.out.println( "++++++ " 
+ (b? "Test succeeded." 
i"Test failed.")); 
System.exit(b?0:1); 
} 
} 
be 
图 10-9 用 X10 代 码 编写 的 2 维 雅 可 比 挝 代 计 算 


XI0 的 目标 是 前 在 改进 生产 率 ， 为 了 达到 这 一 目标 ， 它 开发 了 一 种 新 的 程序 设计 模型 ， 并 
在 Eclipse 中 集成 了 一 组 新 的 工具 以 及 一 个 新 的 实现 技术 ， 使 得 在 一 个 可 管理 的 运行 环境 中 提 
供 优化 可 扩展 的 并 行 性 。X10 是 一 个 类 型 安全 、 现 代 、 并 行 和 分 布 式 面向 对 象 的 语言 ， 各 在 使 
Java™ 程 序 员 能 很 容易 地 使 用 它 。 它 所 针对 的 目标 是 未 来 的 低 镁 和 高 端 系统 ， 这 些 系 统 中 的 结 
点 是 由 多 核 SMP 芯 片 构成 的 ， 系统 具有 非 一 致 存储 器 层次 结构 ， 并 互 连 成 可 扩展 机 群 形式 。 
作为 分 区 的 全 局 地 址 空间 (PGAS) 语言 系列 的 一 个 成 员 ， X10 突出 了 以 下 几 个 方面 : 以 所 在 
位 置 的 形式 清晰 地 指明 局 部 性 ， 在 async，future， foreach 以 及 ateach 的 构造 中 实现 轻 量 级 的 活 
动 ; 设置 终止 检测 (finish) 和 阶段 计算 (clocks) 的 构造 ， 使 用 无 锁 的 原子 块 (atomic 
blocks) 同步 ;全 局 数组 和 数据 结构 的 处 理 。 
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X10 语言 中 融入 了 很 广 的 并 行程 序 设计 概念 ， 这 些 概 念 是 针对 多 核 机 器 和 多 核 机 群 的 ， 而 


这 些 机 器 很 可 能 是 未 来 并 行 体系 结构 的 典型 代表 。 
10.7 小 结 


本 章 讨论 了 几 种 开发 并 行 性 的 不 同方 法 。 这 些 方 法 在 规模 上 有 所 不 同 ， 从 使 用 Cell 的 SPE 
到 MapReduce 模 型 支持 的 因特网 规模 的 计算 。 它 们 所 要 解决 的 问题 也 有 很 大 的 不 同 ， 包 括 准 
确 性 和 方便 性 (事务 存储 器 和 Chapel、Fortress 以 及 X10 语言 )， 芯 片 级 (GPGUP) 的 性 价 比 ， 
企业 级 的 性 价 比 《网 格 ) 以 及 大 规模 计算 的 可 编程 性 。 最 后 ， 我 们 看 到 无 论 是 在 网 格 计算 中 
还 是 在 MapReduce 中 都 出 现 了 并 行 和 分 布 计 算 的 汇合 。 


历史 回顾 


IBM 对 Cell 研 究 项 目 作 了 描述 [2006]。nVidia 公 司 的 CG 语言 [Mark 等 ] 开 创 了 在 GPU 上 用 通 
用 语言 进行 计算 的 迁移 。 更 近期 推出 的 Accelerator( 加 速 器 ) 语 言 [Tarditi 2006] 则 基于 数组 计算 。 
Rajwar 和 Goodman[2001] 对 锁 的 消除 进行 了 论述 。Foster 和 Kesselman[2003] 提 出 了 网 格 的 概 
念 。Herlihy 和 Moss[1986] 普 及 了 硬件 事务 存储 器 的 概念 ，Shavit 和 Touitou[1995] 则 提出 了 一 个 
纯 软 件 的 方法 。Dean 和 Ghemawat[2004] 对 MapReduce 作 了 描述 ， 而 Chamberlain 等 [1999] 描 述 
了 问题 空间 的 提升 。 


习题 


1. 假设 MapReduce 不 是 在 Xeon 机 群 上 使 用 220 个 处 理 器 处 理 100GB 数 据 进 行 求解 ， 而 是 用 网 格 计算 
技术 进行 处 理 。 解 释 此 时 的 计算 应 做 何 种 改变 ;在 给 出 您 的 答案 时 ， 需 考虑 应 该 使 用 更 多 的 处 
理 器 还 是 使 用 较 少 的 处 理 器 。 

2. 在 Cell 处 理 器 上 使 用 Peril-L 为 矩阵 乘法 编写 一 个 伪 代 码 算法 。 挑 选 一 个 恰好 使 用 8 个 处 理 器 的 算 
法 ， 重点 关注 处 理 器 间 的 数据 移动 。 

3. 考虑 如 何在 Cell 处 理 器 上 实现 排序 。 假 设 采 用 Batcher 的 双 调 谐 算法 逻辑 ， 此 外 ， 还 假设 问题 的 
规模 超过 Cell 处 理 器 的 存储 器 容量 ， 因 此 数据 必须 在 附属 处 理 器 和 主 存 之 间 来 回 传送 。 假 设 数据 
传送 是 唯一 的 约束 ， 试 计算 排序 23 个 四 字 (quad-word) 所 需 的 时 间 。 

4. 假定 要 对 如 B- 树 或 AVL- 树 等 大 型 数据 结构 进行 并 发 修改 。 解 释 如 何 使 用 事务 来 保证 树 结构 的 完 
整 性 。 试 解释 改变 求解 的 粒度 对 求解 结果 的 影响 。 

5. 对 习题 4 中 所 用 求解 方法 与 通常 所 使 用 的 锁 机 制 方法 进行 比较 。 如 果 除 了 要 使 完成 插入 时 间 最 小 
之 外 ， 还 需要 使 完成 时 间 的 变化 最 小 ， 则 上 述 求解 方法 中 哪 一 个 更 好 ? 


第 ll 章 编写 并 行程 序 


学 习 并 行程 序 设 计 的 最 好 方法 是 实践 。 以 前 各 章 对 有 关 的 并 行程 序 设计 概念 进行 了 论述 。 
本 章 将 关注 程序 设计 活动 本 身 。 

在 本 书 中 可 以 看 到 进行 并 行程 序 设计 的 实践 有 两 个 机 会 。 第 一 个 机 会 是 进行 小 的 程序 设 
计 练 习 ， 如 书 中 的 举例 以 及 每 章 后 面 的 习题 ， 它 们 为 读者 提供 了 探索 新 算法 概念 的 机 会 或 是 
学 习 一 种 新 的 程序 设计 语言 的 机 会 。 对 于 了 解 特定 的 内 容 而 言 ， 这 是 一 个 很 好 的 手段 。 本 音 
后 几 节 所 覆盖 的 内 容 是 另 一 个 程序 设计 活动 ， 该 活动 是 一 个 内 容 丰 富 的 学 期 课程 作业 ， 需 要 
化 费 许 多 周 的 时 间 。 学 期 课程 作业 为 设计 全 新 的 算法 和 处 理 环 绕 并 行程 序 设计 的 全 方位 复杂 
性 提供 了 机 会 。 上 述 的 两 类 活动 是 清晰 地 理解 本 书 内 容 的 关键 所 在 。 

本 章 在 论述 并 行程 序 的 编写 时 ， 必 然 将 采用 通用 以 及 与 机 器 和 语言 无 关 的 方式 。 当 然 ， 
对 读者 来 讲 则 必须 使 用 一 种 特定 的 语言 和 特定 的 机 器 。 本 章 中 的 大 多 数 主题 都 与 所 有 并 行程 
序 设计 情况 相关 ， 但 偶尔 有 一 些 问题 并 非 如 此 。 


11.1 起 步 
在 考虑 并 行程 序 设 计 之 前 ， 建 议 你 最 好 先 熟悉 目标 并 行 计 算 机 的 访问 和 实际 使 用 。 
11.1.1 访问 和 软件 


单 用 户 系统 的 可 用 并 行 性 通常 局 限于 少数 几 个 处 理 器 ， 但 它 的 访问 显得 比较 方便 。 对 于 
这 种 系统 ， 编 写 并 行程 序 的 技巧 与 编写 任何 其 他 类 型 程序 的 技巧 基本 上 没有 什么 差别 。 与 此 
相反 ， 多 处 理 器 系统 通常 是 多 用 户 系 统 ， 且 通常 以 “远程 ”方式 使 用 。 在 这 种 系统 中 进行 
程 ， 可 能 需要 获得 访问 许可 或 是 需 在 恰当 的 访问 协议 指导 下 进行 访问 。 为 社区 服务 的 系统 ， 
它 使 用 的 信息 通常 在 Web 网 页 上 张贴 ， 对 于 相 邻 实 验 室 中 机 群 的 访问 安排 ， 可 能 并 不 需要 如 
此 正规 。 

在 协商 访问 事宜 时 ， 另 一 个 需要 注意 的 问题 是 需要 验证 在 你 想 使 用 的 目标 平台 上 有 所 要 
使 用 的 程序 设计 语言 和 软件 工具 。 就 这 一 点 而 言 ， 多 用 户 系统 通常 是 较为 方便 的 ， 因 为 其 他 
人 可 能 已 经 安装 了 你 期 望 的 系统 。 应 注意 的 是 ， 调 试 器 、 性 能 分 析 器 等 工具 应 同时 一 起 安装 。 


11.1.2 Hello, World 


传统 地 ， 用 新 语言 或 为 新 系统 编写 的 第 一 个 程序 是 一 个 很 简单 的 计算 ， 如 “Hello,World” 
程序 《 它 只 是 简单 地 打印 问候 ) ， 将 在 一 个 并 行 的 平台 上 测试 编译 、 连 接 、 装 载 、 排 队 (如 果 
需要 的 话 ) 等 功能 并 运行 一 个 并 行程 序 。 

一 县 “Heillo,World” 成 功 运行 ， 下 一 个 任务 便 是 在 多 处 理 器 系统 上 运行 类 似 的 简单 程序 ， 
组 合 来 自 所 有 进程 的 结果 ， 并 输出 该 结果 。 这 种 计算 能 解决 派生 线程 或 进程 以 及 它们 之 间 进 
行道 信 的 问题 。 虽 然 这 似 平 是 非常 直截了当 的 ， 但 在 解决 更 繁复 的 任务 之 前 最 好 先 验 证 你 已 
”经 对 这 些 基 本 的 操作 有 了 充分 的 了 解 。 
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最 后 ， 在 急切 地 开始 进行 程序 设计 之 前 ， 需 要 谨慎 地 测试 是 否 能 对 程序 的 执行 进行 测量 。 
并 行 计算 工作 的 一 个 关键 部 分 是 度量 它 的 性 能 ， 因 此 关键 是 能 知晓 如 何 获得 精确 的 定时 。 由 
于 前 两 个 测试 程序 过 于 简单 因此 无 法 满足 可 测量 时 间 总 量 的 要 求 ， 为 此 需 在 线程 中 加 入 代码 
以 使 得 对 存储 器 的 操作 能 和 迭代 执行 10 次 ， 例 如 交换 两 个 变量 的 值 ; 


需要 进行 验证 例如 当选 代 次 数 增加 到 10* 时 能 检测 到 性 能 的 改变 。 
优化 编译 器 检查 定时 设施 时 ， 应 确保 打印 出 在 定时 的 代码 中 所 访问 到 的 某 些 值 (除了 
定时 以 外 )。 优 化 编译 器 通常 会 分 析 一 个 程序 以 确定 哪些 语 向 会 促成 最 后 的 输出 ， 然 后 
编译 器 会 删除 那些 无 关 的 代码 。 通 过 从 定时 部 分 打印 菜 些 值 ， 就 可 保证 编译 器 不 会 将 
其 删除 。 
在 完成 了 这 些 预备 步骤 后 。 我 们 就 为 开发 并 行程 序 做 好 了 准备 。 

11.2 并 行程 序 设计 的 建议 
本 书 的 大 多 数 读者 已 经 是 有 经 验 的 程序 员 ， 因 此 在 编写 成 功 的 顺序 程序 时 不 需要 帮助 ， 


为 此 ， 这 里 将 集中 讨论 那些 对 并 行 独特 的 问题 或 是 致力 于 对 并 行程 序 设计 的 活动 。 我 们 将 遵 
从 软件 工程 的 原理 ， 但 并 不 采用 软件 工程 中 的 专门 技术 。 也 许 最 好 的 忠告 是 三 思 而 行 。 


11.2.1 增 量 式 开 发 


由 于 并 行程 序 通常 比较 复杂 ， 这 就 使 得 创建 和 理解 并 行程 序 相当 困 难 ， 因 此 如 果 有 -一 个 
实际 的 方法 学 来 指导 并 行程 序 设 计 将 是 很 有 帮助 的 。 我 们 建议 采用 增 量 的 方法 使 程序 从 一 个 
工作 版 本 前 行 到 另 一 个 工作 版 本 。 例 如 ， 可 以 在 程序 开始 时 只 是 初始 化 并 行 数据 结构 。 这 个 
初始 的 程序 然后 可 以 以 小 的 改进 增 量 式 地 加 以 修改 ， 但 在 每 一 步 时 需要 小 心地 全 面 测试 新 程 
序 ， 以 验证 它 能 继续 正常 工作 。 在 将 新 模块 集成 到 程序 的 主体 部 分 并 与 程序 主体 部 分 一 起 进 
行 测试 前 ， 也 可 分 别 使 用 这 一 方法 学 对 新 模块 进行 设计 、 实 现 和 单元 测试 。 这 一 技术 对 寻找 
好 的 测试 情景 以 及 保持 一 个 完整 的 开发 历史 给 予 了 高 度 重 视 ， 因 此 当 发 现 问题 后 就 可 能 回 深 
到 前 一 个 工作 版 本 。( 我 们 建议 使 用 诸如 Subversion 的 版 本 控制 系统 )。 

“小 改进 ”有 多 大 ?当然 它 不 是 以 代码 行 的 多 少 来 衡量 的 ， 而 是 以 加 入 到 程序 中 的 复杂 量 
和 我 们 对 它 的 正确 性 的 信心 来 衡量 。 在 程序 中 即使 仅 有 几 行 代码 影响 了 线程 的 交互 ， 很 可 能 
导致 很 大 的 复杂 性 ， 需 要 仔细 地 进行 检查 。 另 一 方面 ， 程 序 的 正文 块 特别 是 那些 不 含有 与 其 
他 线程 交互 的 过 程 ， 可 以 很 容易 地 加 入 ， 即 使 它们 可 能 占用 了 大 量 的 代码 。 


11.2.2 侧重 并 行 结构 


我 们 提倡 先 构造 并 行 结构 然后 插入 功能 成 分 。 初 看 起 来 似乎 有 些 绕 圈子 ， 但 由 于 此 时 没有 
计算 中 功能 部 分 的 掩盖 ， 所 以 通常 会 更 容易 地 识别 难于 发 现 的 并 行 错误 。 这 种 宏观 的 观点 将 引 
导 我 们 把 矩阵 乘法 看 成 是 组 合 行 和 列 而 不 是 许多 标量 的 乘法 和 加 法 ， 即 使 我 们 最 终 可 能 要 在 多 
个 层次 上 应 用 并 行 化 。 宏 观 的 观点 通常 有 助 于 识别 施加 并 行 化 能 得 到 最 大 回报 的 所 在 处 。 

为 了 说 明 并 行 超 结构 的 概念 ， 设 想 我 们 的 程序 要 完成 以 下 任务 ， 

* 初始 化 数据 结构 
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“派生 一 组 线程 ， 每 个 线程 将 在 一 部 分 数据 结构 上 进行 迭代 操作 ， 并 在 每 个 周期 的 末尾 与 

其 他 线程 进行 交互 

“ 用 归 约 操作 汇总 数据 

* 打印 结果 

“退出 

图 11-1 显 示 了 这 个 假想 计算 的 超 结构 的 示意 图 。 

这 些 反 映 程序 基本 并 行 结构 的 步 又 可 以 在 说 明 计 算 的 实际 功能 之 前 进行 编写 和 调试 。 通 
过 使 基本 结构 在 这 种 框架 形式 中 工作 ， 那 么 只 有 很 少 的 场所 中 会 隐藏 与 并 行 有 关 的 隐 错 。 








图 11-1 一 个 代表 性 计算 的 并 行 超 结构 。 控 制 流 来 自 顶部 ， 灰 带 标明 了 每 个 线程 与 其 他 线程 进行 集中 交 
互 的 位 置 


11.2.3 并行 结构 的 测试 


一 个 复杂 的 问题 是 功能 部 分 经 常 决定 了 并 行 部 分 的 行为 表现 ， 这 一 点 很 重要 因为 形成 的 
交互 是 导致 复杂 性 和 潜在 缺陷 的 主要 根源 。 如 果 线 程 的 调度 是 预先 确定 的 ， 如 在 Batcher 的 
双 调 谐 排序 中 〈 参 见 第 4 章 ) 那样 ， 则 就 很 容易 测试 。 但 是 如 果 线 程 的 交互 是 数据 相关 的 或 
是 动态 的 ， 则 就 必须 建立 某 种 机 制 以 再 生 典 型 的 调度 从 而 能 对 交互 进行 测试 。 当 然 确定 调度 
的 功能 性 应 是 可 编程 和 可 使 用 的 ， 但 是 对 于 有 效 的 程序 开发 ， 这 可 能 太 不 可 预测 。 所 以 我 们 
提议 首先 在 可 控 的 条 件 下 检查 交互 (或 是 输入 一 个 测试 调度 或 是 程序 设计 一 个 可 预测 的 调 
BE) 以 验证 交互 的 正确 性 。 这 些 “ 测 试 模板 ”可 以 进行 调节 以 检查 不 同 的 调度 并 增加 对 结果 
的 信心 。 

11.2.4 顺序 程序 设计 

与 并 行程 序 设计 相 比 ， 顺 序 程序 设计 获得 了 程序 开发 工具 更 好 的 支持 ， 因 此 利用 这 一 事 
实 是 很 有 意义 的 。 为 此 我 们 建议 尽 可 能 多 地 编写 顺序 代码 ， 这 与 我 们 提议 将 顺序 代码 插入 到 
并 行 超 结构 中 是 相互 呼应 的 。 能 独立 于 主 并 行程 序 开发 和 测试 的 代码 通常 可 以 很 有 信心 地 加 
入 。 程 序 的 功能 部 分 通常 属于 这 一 类 型 。 
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11.2.5 乐意 写 附加 代码 


在 编写 并 行程 序 代码 时 非常 容易 出 现 隐 错 ， 所 以 不 应 急 着 生成 大 量 的 代码 而 是 应 力图 生 
成 正确 和 有 效 的 代码 。 即 使 侧重 效率 也 可 能 产生 误导 ， 因 为 性 能 的 优化 经 常会 复杂 代码 和 引 
入 隐 错 。 因 此 乐意 撰写 额外 的 代码 以 利于 测试 、 调 试 和 理解 主 并 行程 序 是 非常 重要 的 。 有 许 
多 例子 表明 额外 的 代码 或 工具 是 有 用 的 : 

“有 助 于 消除 竞 态 条 件 ， 竞 态 条 件 难 以 识别 是 出 了 名 的 ， 有 时 可 以 创建 一 个 测试 控制 以 系 

统 地 对 可 变 的 线程 数 实 施 大 量 的 线程 交互 集 。 这 种 控制 可 能 需要 作为 陷阱 安置 在 并 行程 

序 中 以 控制 不 同 的 执行 交叉 。 这 些 陷 阱 对 程序 的 某 些 部 分 可 以 调用 人 为 的 延迟 ， 或 者 在 

线程 系统 中 它们 可 以 释放 处 理 器 。 

“为 了 方便 测试 ， 创 建 一 个 能 生成 各 种 各 样 程序 输入 的 程序 是 非常 有 用 的 。 而 单纯 地 依赖 

设想 不 同 程序 的 输入 以 图 暴露 代码 中 的 隐 含 假设 通常 是 无 效 的 。 

* 创建 小 工具 以 检查 各 种 数据 结构 的 状态 通常 很 有 用 。 例 如 ， 如 果 一 个 数据 结构 在 分 布 式 

存储 器 机 器 中 分 布 在 多 个 处 理 器 上 ， 则 若 有 一 个 打印 例 程 能 打印 出 一 个 全 局 一 致 的 数据 

结构 情况 就 非常 有 用 ， 这 比 每 个 进程 单独 地 打印 局 部 的 数据 结构 情况 要 好 得 多 。 这 种 例 

程 可 能 要 在 进程 间 传 递 一 个 令 牌 以 同步 各 种 打印 语句 。 

“为 了 调试 长 时 间 运 行 的 程序 ， 实 现 检 查 点 的 设施 是 很 有 用 的 ， 检 查 点 技术 能 周期 地 保存 

所 有 进程 的 执行 状态 ， 这 样 以 后 的 执行 就 能 从 执行 中 的 某 点 继续 ， 而 该 点 正 是 接近 于 出 

现 隐 错 的 位 置 。 应 谨慎 设置 检查 点 ， 以 使 它们 所 代表 的 时 间 点 是 确实 会 发 生 的 。 例 如 ， 

考虑 从 进程 p 向 进程 4 发送 一 个 消息 。 如 果 一 个 检查 点 保存 进程 p 在 它 发 送 销 息 之 前 的 状 

态 ， 而 保存 进程 9 在 它 接收 消息 后 的 状态 ， 则 将 导致 状态 的 不 一 致 ， 因 为 不 可 能 发 生 消 

息 还 未 发 出 而 却 已 被 接收 的 情况 ， 避 免 这 种 问题 最 简单 的 方法 是 在 障 栅 处 或 其 他 的 全 局 

同步 点 上 设置 检查 点 。 

"为 了 解 并 行 性 能 和 性 能 的 瓶颈 所 在 ， 在 程序 中 设置 能 开关 的 检测 代码 非常 有 用 。 这 种 代 

码 能 测量 一 个 线程 所 完成 的 工作 量 , 或 是 进行 定时 的 测量 。 当 然 ， 当 试图 测量 短 事件 时 ， 

这 种 定时 的 测量 就 会 有 问题 。 

与 顺序 程序 一 样 ， 自 由 地 使 用 断言 能 有 助 于 快速 地 识别 代码 中 那些 违反 假设 的 位 置 。 


11.2.6 测试 时 对 参数 的 控制 


在 测试 程序 时 存在 一 个 通用 的 趋势 即 创建 一 个 小 型 的 测试 案例 集 ， 对 于 许多 计算 来 讲 这 一 
方法 完全 能 满足 要 求 。 可 是 由 于 并 行 计算 的 性 质 要 求 测试 案例 集 必须 足够 大 ， 使 得 分 布 在 每 个 
进程 上 的 工作 足够 多 才能 显示 出 典型 的 交互 。 因 此 ， 如 时 测试 一 个 顺序 计算 需要 a 个 数据 项 我 
们 可 以 期 待 个 线程 的 并 行 计算 将 至 少 需 要 tn 个 数据 项 ， 若 考虑 到 整除 性 的 因素 ， 则 可 能 需要 更 
多 的 数据 项 。 此 外 ,我们 需要 有 足够 的 处 理 器 以 促使 生成 一 个 丰富 的 交互 集 。 遗 憾 的 是 ， 不 存 
在 一 个 普 适 的 规则 到 底 需要 多 少数 据 项 方 可 满足 要 求 ， 因 为 每 一 种 情况 都 是 不 一 样 的 。 

最 后 ， 假 设 已 有 足够 多 的 数据 项 ， 我 们 还 需要 为 它们 考虑 各 种 交互 的 调度 问题 。 如 前 所 
述 ， 综 合 调度 的 好 处 是 它们 能 在 很 大 程度 上 加 以 控制 。 测 试 应 包含 所 期 待 的 各 种 交互 类 型 ， 
当然 应 当 记 住 ， 即 使 调度 如 Batcher 排 序 是 可 预测 的 ， 但 线程 到 达 同 步 点 的 确切 时 间 是 不 知道 
的 。 如 果 交 互 是 数据 相关 的 或 是 动态 的 ， 则 测试 调度 应 该 包括 对 一 些 极 端 调 度 情况 的 选择 ， 
例如 所 有 任务 等 待 同一 个 任务 ， 或 是 一 串 任务 依次 等 待 它 的 先驱 者 等 。 
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11.2.7 功能 性 调试 


确定 一 个 并 行 计算 的 答案 是 否 正确 的 主要 方法 是 比较 并 行程 序 的 输出 和 另 一 个 计算 ， 通 
常 是 顺序 计算 的 输出 。 这 种 策略 对 于 处 理 离散 对 象 的 程序 来 讲 是 很 合适 的 ， 但 当 计 算 中 含有 
浮 点 算术 操作 时 就 不 很 可 靠 。 因 为 并 行程 序 会 有 不 同 (其 至 是 不 可 预测 ) 的 执行 顺序 ， 浮 点 
运算 的 内 在 不 精确 性 可 能 导致 结果 不 会 在 每 一 位 上 都 相同 。 在 这 种 情况 下 ， 通 常 较 为 合适 的 
处 理 方法 是 使 用 一 个 正确 性 的 闪 值 ， 如 “正确 到 精度 4 位 ”。 

如 前 面 几 小 节 所 暗示 的 ， 我 们 建议 通过 使 用 谨慎 的 开发 过 程 使 引入 的 隐 错 数 降 至 最 少 。 
不 幸 的 是 ， 有 效 的 并 行 调试 工具 几 平 是 不 存在 的 。 大 多 数 程序 员 采 用 捕获 数据 并 对 它们 进行 
检查 的 方法 ， 而 这 将 不 可 避免 的 影响 他 们 程序 的 定时 特性 以 及 确切 的 功能 


11.3 对 结 课 课 程 设计 的 设想 


前 面 几 章 着 重用 小 练习 来 教授 专门 的 论题 。 但 更 大 的 课程 设计 能 教会 除了 并 行程 序 设计 
概念 之 外 的 许多 其 他 内 容 ， 如 管理 复杂 性 、 开 发 有 效 的 程序 设计 方法 学 以 及 实践 合适 的 实验 
过 程 。 在 你 所 选择 的 课程 设计 中 开发 并 行程 序 设计 领域 中 的 专门 技术 是 对 未 来 挑战 的 很 好 准 
备 。 你 旁边 有 一 台 并 行 计算 机 ， 现 在 是 为 它 编写 一 个 真正 程序 的 时 候 了 ，。 

有 儿 种 类 型 的 计算 可 以 作为 结 课 课程 设计 (capstone project) 。 在 选择 求解 问题 时 最 好 关 
注 它 要 解决 什么 样 的 计算 而 不 要 关注 它 的 并 行 行为 。 因 为 如 果 所 选 定 的 问题 “非常 并 行 ”或 
是 它 已 有 一 个 明显 的 实现 方法 ， 则 与 问题 的 答案 是 个 人 很 感 兴趣 的 课程 设计 相 比 ， 通 常会 
较 少 的 参与 。 显 然 ， 如 果 求 解 的 问题 需要 大 量 的 计算 则 为 最 好 ， 但 是 当 目的 仅 是 为 了 学 习 时 ， 
实际 上 并 非 需 要 如 此 ” 。 我 们 将 可 能 的 课程 设计 分 为 三 类 ， 下 面 分 别 进行 讨论 。 


11.3.1 实现 现 有 的 并 行 算法 


由 于 并 行 是 一 个 长 期 研究 的 论题 ， 因 此 在 文献 中 有 许多 有 关 并 行 算法 的 描述 。 但 这 些 描 
述 通常 都 是 非 正 规 的 或 是 以 一 种 特殊 的 伪 代 码 书写 的 ， 因 此 所 给 出 的 不 是 产品 程序 。 例 如 第 4 
章 中 为 了 说 明 可 扩展 并 行 计算 的 Batcher 的 双 调谐 排序 是 以 Peril-L 编 写 的 (为 求解 按 字 母 顺序 
排序 任务 )。 这 类 课程 设计 的 目的 将 是 为 一 个 特殊 的 平台 生成 一 个 可 工作 的 实现 以 及 描述 它 的 
行为 。 

初 看 起 来 该 课程 设计 相当 容易 ， 因 为 似乎 只 要 在 书 中 找到 一 个 算法 并 将 其 在 当代 计算 机 
上 以 产品 程序 设计 语言 加 以 实现 就 可 以 了 。 但 这 里 有 一 个 忠告 : 即 公开 发 表 的 并 行 算法 通 党 
都 会 有 一 些 假设 ， 而 这 些 可 能 并 不 适用 于 可 用 的 语言 和 计算 机 。 作 为 一 个 极端 的 例子 ， 存 在 
有 大 量 的 有 关 PRAM 算 法 的 文献 ， 但 是 如 在 第 2 章 中 所 述 ，PRAM 模 型 对 于 可 扩展 并 行 性 是 不 
现实 的 。 最 好 的 忠告 是 谨慎 地 检查 文章 并 了 解 作者 所 做 的 假设 。 如 果 它 们 与 可 用 的 机 器 、 语 
言 和 目的 均 符合 ， 则 就 继续 进行 设计 ， 否 则 就 继续 寻找 。 这 类 课程 设计 的 构成 要 素 为 如 下 ; 

“ 定位 一 个 感 兴趣 的 算法 。 

“识别 算法 所 基于 的 任何 计算 假设 。 

“阐明 为 测量 程序 所 需 使 用 的 典型 测试 输入 。 

“ 用 前 面 所 给 定 的 方法 学 开发 一 个 程序 。 


O ”最 好 是 顺序 复杂 性 为 0(n”) 或 更 高 的 求解 问题 。 
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。 度 量 整个 性 能 ， 包 括 特 殊 子 计算 的 性 能 。 

。 基 于 所 得 到 的 测试 结果 和 本 书 稍 早 所 论述 的 主题 (例如 第 3 章 )， 修 改 程序 以 改进 它 的 性 能 。 

。 书面 报告 课程 设计 的 结果 。 

改进 一 个 已 发 表 算法 的 可 能 性 看 起 来 似乎 很 难 实现 ， 但 这 是 可 能 做 到 的 。 算 法 的 实现 一 
般 将 会 有 许多 机 会 进行 改进 ， 即 使 基本 算法 保持 不 变 。 

上 述 的 构成 表 (下 面 两 个 小 节 中 也 有 类 似 的 构成 表 ) 看 起 来 像 是 一 个 简单 的 操作 步骤 集 。 
但 是 在 每 一 步 中 都 存在 潜在 的 复杂 性 ， 该 表 可 能 并 未 穷尽 ， 且 这 些 步骤 也 不 可 能 总 是 严格 地 
按 所 给 定 的 顺序 依次 完成 。 


11.3.2 与 标准 的 基准 测试 程序 媲美 


第 二 类 课程 设计 (与 第 一 类 有 关 ) 是 在 新 的 环境 下 实现 一 个 标准 的 并 行 基准 测试 程序 ， 
并 比较 求解 是 如 何 完成 的 。 多 年 来 已 开发 了 各 种 各 样 的 并 行 基准 测试 程序 套件 组 ， 有 关 的 详 
细 情 况 请 参见 Web 网 。 其 中 受到 高 度 关注 的 套件 组 是 NAS Parallel Benchmarks (NPB) 
(http://www. nas.nasa.gov/Resources/Software/swdescriptions.html) , 它 是 由 NASA 的 研究 人 员 
开发 的 。 基 准 测 试 程序 的 优点 是 它 通常 是 精心 编写 的 〈 精 巧 设计 的 ) 且 被 广泛 了 解 和 认可 ， 
此 外 通常 它 已 公布 了 性 能 数据 。 因 此 ， 如 果 我 们 以 新 的 语言 为 该 基准 测试 程序 编写 了 一 个 新 
版 本 ， 或 是 使 该 基准 测试 程序 具有 了 某 种 新 的 特性 ， 那 么 我 们 就 可 将 课程 设计 程序 的 运算 结 
果 已 与 公布 的 结果 进行 比较 。 这 种 竞争 很 有 趣 。 

这 类 课程 设计 的 构成 要 素 为 如 下 : 

* 重读 一 个 基准 测试 程序 套件 组 中 的 所 有 程序 ， 并 确定 其 中 感 兴趣 的 一 个 。 

。 查 找 报告 该 基准 测试 程序 实验 结果 的 那些 论文 ， 注 意 实现 平台 和 实现 语言 等 细节 。 

。 用 前 面 所 给 定 的 方法 学 开发 一 个 程序 。 

。 遵循 文 章 中 所 使 用 的 标准 方法 学 和 测试 数据 ,度量 整个 性 能 , 并 与 已 公布 的 结果 相 比 较 。 

实现 这 一 步 的 困难 在 于 它 带 有 一 些 迷 惑 性 。 例 如 ，NAS Parallel Benchmarks 提 供 一 个 具 

有 不 同 大 小 的 输入 集 ， 每 一 种 大 小 适合 于 不 同 存储 器 容量 的 平台 。 如 果 基 准 测 试 程序 套 

件 没有 设计 得 如 此 精巧 ， 就 需要 修改 测试 的 输入 。 

。 基 于 所 得 到 的 测试 结果 和 第 3 章 所 论述 的 论题 ， 确 定 为 何 所 观察 到 的 性 能 与 已 公布 的 结 

果 有 所 不 同 。 同 样 ， 这 一 步 的 实现 可 能 比较 困难 ， 因 为 它 通 常 需要 知道 体系 结构 的 差别 、 

程序 的 输入 、 程 序 设计 的 各 种 技术 之 间 是 如 何 影响 的 。 此 外 ， 许 多 文章 不 提供 足够 的 信 

息 以 产生 可 重复 的 实验 。 

。 书面 报告 课程 设计 的 结果 。 

该 题目 的 一 种 变化 是 考虑 整个 测试 套件 ， 不 是 重 写 这 些 程序 ， 而 只 是 简单 地 对 它们 加 以 
改变 从 而 达到 探究 体系 结构 某 一 特征 的 目的 ， 例 如 将 消息 传递 命令 改换 成 单 边 通信 形式 或 是 
改 成 共享 存储 器 的 访问 方式 。 作 为 一 个 忠告 ， 这 种 变化 的 简单 性 对 于 大 多 数 的 体系 结构 特征 
来 讲 是 不 可 行 的 。 


11.3.3 开发 新 的 并 行 计算 


最 有 兴趣 的 课程 设计 类 型 是 用 并 行 方式 求解 一 个 新 间 题 。 通 过 运用 你 自己 的 知识 和 对 任 
务 的 创造 ， 会 获得 构建 一 个 可 工作 的 并 行程 序 的 满足 感 ， 而 且 通 过 亲自 解决 所 有 的 并 行 问题 ， 
这 将 是 非常 有 意义 的 。 
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主要 的 要 求 是 要 对 计算 有 足够 的 熟悉 ， 这 样 就 可 以 将 它 的 组 成 部 分 以 一 种 不 同 的 方式 
(并 行 方式 ) 加 以 表示 ， 并 获得 正确 的 解答 。 作 为 一 个 设想 源 ， 表 11-1 给 出 了 几 个 并 行 计算 课 
程 中 所 采用 的 课程 设计 报告 的 题目 。 显 然 ， 如 果 没 有 这 份 报告 ， 我 们 无 法 确认 已 实现 什么 样 
的 特殊 计算 ,而 且 这 些 题目 还 建议 了 一 些 有 重大 意义 的 计算 问题 领域 ,这 些 问 题 值得 进行 
行 求解 。 

这 类 课程 设计 的 主要 工作 步骤 为 如 下 所 示 :; 

“ 重新 阅读 有 关 计 算 的 文献 ， 如 果 你 对 它 还 不 是 十 分 熟悉 的 话 。 

“开发 一 个 计划 ， 开 始 时 的 目标 应 是 有 限 和 可 以 达到 的 ， 如 并 行 化 核心 部 分 的 计算 ， 然 后 

根据 需要 逐步 加 入 附加 的 功能 层 。 由 于 采用 增 量 式 的 开发 方法 ， 因 此 需要 注意 整个 计划 

的 完整 性 。 特 别 是 避免 只 并 行 化 核心 部 分 的 陷阱 ， 而 在 此 后 才 发 现 大 部 分 时 间 是 花 在 非 

并 行 化 部 分 的 代码 上 。 

* 使 用 前 面 所 描述 的 方法 学 开发 一 个 程序 。 

“分 析 求 解 的 行为 ， 以 了 解 性 能 是 如 何 随 求解 问题 的 规模 增 大 和 处 理 器 数 的 增加 而 发 生变 

化 的 。 

* 基于 分 析 ， 改 进 任何 瓶颈 的 性 能 。 

* 如 计划 所 描述 的 ， 加 入 下 一 层次 的 功能 性 ， 在 所 需 之 处 实施 并 行 化 。 

* 书面 报告 课程 设计 的 结果 。 

在 开始 构造 一 个 计划 之 前 关键 的 一 点 是 要 克制 过 度 雄 心 勃 勃 的 倾向 (我们 都 会 这 么 做 ! ) 
以 及 集中 精力 于 关键 目标 ， 为 所 感 兴趣 的 问题 给 出 一 个 并 行 求解 方法 。 

应 注意 的 是 ， 在 使 用 前 两 个 方法 选择 课程 设计 时 (一 个 已 公开 发 表 的 算法 或 与 一 个 基准 
测试 程序 进行 竞争 )， 有 关 代 码 可 能 已 经 存在 因此 可 以 直接 加 以 使 用 ,特别 是 其 中 的 功能 部 分 。 
即使 在 第 三 种 方法 中 ， 通 常 也 存在 能 提供 所 需 功能 性 的 开源 软件 ， 尽 管 是 顺序 形式 。 由 于 获 
得 正确 工作 的 程序 段 相当 容易 和 正当 ， 因 此 使 用 这 些 程序 就 很 有 意义 。 


表 11-1 并 行 计算 课程 的 课程 设计 报告 题目 




















下 棋 残 局 游戏 3- 可 满足 性 问题 基因 序列 排序 
分 段 最 小 二 乘法 视频 运动 检测 游戏 的 路 径 寻 找 
GPU 的 声 频 分 析 MP3 快 速 傅 里 叶 变换 图 像 卷 积 

确切 字符 串 匹 配 KD- 树 构造 Boid 仿 真 
Kohonen 地 图 光线 跟踪 银河 系 仿 真 
质数 因子 分 解 矩形 分 割 Kenser-Ney*¥ i= 
数据 加 密 跳棋 的 最 小 /最 大 搜索 人 工 神经 网 
光线 铸造 AAT AE 约束 满足 

采样 排序 旅行 商 问题 协同 过 滤 


11.4 性 能 度量 


通常 编写 并 行程 序 的 目的 是 为 了 加 快 求解 问题 的 速度 。 在 计算 产生 正确 的 结果 后 ， 随 之 
而 来 的 下 一 个 任务 便 是 测量 它 的 性 能 。 定 时 器 的 使 用 已 经 过 检验 (这 是 “Hello，World” 后 
的 下 一 个 准备 步骤 )， 所 以 剩 下 的 工作 便 是 考虑 如 何 应 用 以 了 解 程序 的 性 能 。 在 第 3 章 的 论述 
中 包含 了 与 本 小 节 直接 相关 的 许多 主题 ， 这 里 假设 读者 已 熟悉 这 些 内 容 。 
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11.4.1 与 顺序 求解 方法 比较 


关于 并 行程 序 每 一 个 人 会 问 的 第 一 个 问题 是 “相对 于 顺序 程序 ， 并 行程 序 作 了 多 少 改 
进 ?》 ”这 个 问题 隐 含 着 并 行 和 串 行 计 算 执 行 时 间 的 比较 ， 这 里 的 执行 时 间 对 大 多 数 人 来 讲 古 
耗费 时 间或 “ 墙 钟 ” 时 间 。 称 该 参量 为 整体 性 能 (overall performance)。 

我 们 应 该 将 程序 中 的 哪些 部 分 包含 在 整体 性 能 的 测量 中 ? 当 定时 程序 时 是 否 应 该 包括 初 
始 化 和 清理 的 代价 ”因为 我 们 关心 的 是 整个 执行 时 间 ， 因 此 定时 整个 程序 就 是 合理 的 。 但 是 ， 
初始 化 和 清理 只 是 一 次 性 开销 ， 并 不 代表 计算 的 核心 ， 特 别 是 在 较 长 的 有 效 运行 时 它们 更 将 
被 计算 的 核心 所 弱化 。 也 许 最 好 的 回答 是 了 解 程序 中 各 部 分 的 行为 ， 并 彻底 弄 清 在 报告 结 采 
时 需要 哪些 测量 的 数据 。 

很 重要 的 一 点 是 ， 要 弄 清 一 个 程序 中 每 个 阶段 内 的 各 个 开销 ， 因 为 阿 姆 达 尔 定律 告诉 我 
们 如 果 革 种 开销 (譬如 初始 化 ) 本 质 上 是 顺序 的 ， 则 这 些 开 销 将 限制 加 速 比 。 例 如 ， 如 果 磁 
盘 1/0 的 时 间 占 主导 地 位 ， 那 我 们 就 知道 对 核心 计算 进行 并 行 化 不 会 有 任何 收益 。 此 外 ， 这 种 
了 解 将 允许 我 们 去 推断 将 并 行 化 移 向 其 他 硬件 的 潜在 得 益 ， 例 如 支持 具有 较 低 初始 化 开销 的 
并 行 VO。 

最 后 ， 比 较 基础 的 顺序 程序 应 该 是 具有 “显著 ”竞争 力 的 或 是 已 知 的 最 快 顺序 程序 。 第 
__. 种 情况 所 涉及 的 程序 是 广泛 应 用 的 ， 所 以 为 对 比较 感 兴趣 的 读者 所 熟悉 。 第 二 种 情况 则 适 
用 于 对 通过 并 行 化 可 使 计算 有 多 少 改进 感 兴趣 的 场合 。 这 里 的 顺序 程序 不 应 该 是 使 用 一 个 处 
理 器 的 并 行程 序 ， 除 非 已 知 最 快 的 顺序 计算 也 是 处 于 这 种 情况 (这 是 可 能 发 生 的 ! )。 不 论 是 
运用 哪 一 种 情况 ， 在 报告 结果 时 均 应 加 以 说 明 。 


11.4.2 维护 一 个 公正 的 实验 设置 


为 了 使 任何 比较 有 意义 ， 必 须 对 许多 变量 加 以 控制 。 如 在 第 3 章 中 所 提 到 的 ， 这 些 变量 包 
括 程序 执行 所 使 用 的 硬件 平台 、 所 使 用 的 语言 和 编译 器 、 生 成 编译 代码 时 所 使 用 的 优化 设置 
以 及 程序 的 输入 。 例 如 ， 两 个 程序 应 在 相同 的 计算 机 上 运行 ， 这 就 意味 着 顺序 程序 应 在 并 行 
机 的 一 个 处 理 器 上 运行 。 

另 一 个 较为 复杂 的 问题 是 ， 难 于 生成 可 重复 的 结果 。 因 为 现代 的 计算 机 是 多 道 程序 的 ， 
在 被 测量 的 程序 运行 时 ， 其 他 的 程序 以 及 不 相关 的 任务 也 可 能 在 同时 执行 ， 其 范围 涉及 从 后 
台 的 安全 守护 进程 到 其 他 用 户 程序 ， 例 如 ， 当 将 一 个 服务 器 机 群 作为 并 行 计算 机 使 用 时 就 可 
能 出 现 这 种 情况 。 这 种 干扰 的 后 果 小 到 导致 微小 的 定时 不 精确 ， 大 到 计算 结果 的 完全 不 可 靠 。 
主要 的 担心 是 ， 其 他 的 计算 会 使 用 资源 , 例如 网 络 或 总 线 带宽 ， 这 将 不 可 预测 地 影响 被 测量 的 
程序 。 因 此 很 显然 测量 性 能 时 最 好 系统 只 有 唯一 的 一 个 用 户 ， 即 被 测量 的 程序 ， 当 这 种 条 件 
不 能 满足 时 ， 则 很 重要 的 一 点 是 ， 累 计 足 够 多 次 的 运行 记录 ， 识 别 其 中 运行 缓慢 的 非 测试 部 
分 并 将 它们 吻 除 掉 。 

最 小 值 及 平均 值 如 果 程 序 一 般 执 行 的 设置 是 多 用 户 的 话 ， 许 多 研究 人 员 喜 次 用 平均 执 

行 时 间 来 报道 性 能 结果 ， 但 是 中 值 (median) 可 能 是 一 个 更 好 的 报道 值 ， 因 为 它 忽略 

了 少量 差 的 非 测试 部 分 的 影响 。 最 小 的 执行 时 间 也 很 重要 ， 因 为 它 指明 了 在 最 好 的 条 

件 下 可 达到 的 性 能 。 

性 能 不 可 预测 性 的 一 个 潜在 根源 在 于 在 测试 时 包括 了 操作 系统 和 运行 时 系统 。 例 如 ， 某 
些 程序 需要 大 量 的 分 页 以 从 磁盘 装载 初始 数据 ， 且 分 页 所 需 的 代价 会 随 操 作 系统 的 虚拟 存储 
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器 系统 的 状态 而 发 生变 化 。 通 过 “ 预 热 ” 系 统 可 以 抑制 这 种 行为 ， 并 可 使 性 能 变 得 更 可 预测 。 
预 热 的 概念 是 使 程序 运行 两 次 ， 而 只 测量 第 二 次 的 执行 时 间 。( 当 然 ， 如 果 程 序 中 存在 冲突 缺 
失 ， 则 应 该 进行 统计 ， 但 初始 的 大 量 分 页 活动 将 被 避免 统计 在 内 ) 。 类 似 地 ， 如 果 系 统 动态 调 
用 了 即时 (Just In Time, JIT) 编译 器 ， 它 也 将 以 不 可 预测 的 方式 影响 存储 器 系统 的 行为 ， 如 
果 使 系统 进行 预 热 ， 就 可 在 进行 测量 之 前 使 所 有 方法 得 到 编译 。 另 一 个 例子 是 ， 无 用 信息 收 
集 时 间 可 能 导致 广泛 的 不 可 预测 的 执行 时 间 ， 因 此 在 如 Java 等 支持 垃圾 回收 的 语言 中 ， 通 党 
较为 明智 的 做 法 是 在 测量 之 前 立即 强制 执行 无 用 信息 的 收集 。 


11.5 了 解 并 行 性 能 


我 们 的 最 终 目 标 是 要 获得 良好 的 性 能 ， 因 此 这 就 诱 使 我 们 测量 加 速 比 ， 在 确认 加 速 比 曲 
线 比 较 理想 时 就 会 宣布 获得 了 成 功 。 但 是 ， 如 何 能 知道 是 否 真正 获得 了 成 功 ? 正如 在 第 3 章 结 
尾 处 所 讨论 的 那样 ， 对 加 速 比 曲线 的 误解 有 多 种 方式 。 我 们 可 能 得 到 好 的 加 速 比 是 因为 求解 
问题 规模 远大 于 可 用 的 处 理 器 数 ， 而 在 实际 上 ， 我 们 的 程序 可 能 是 非常 低 效 的 ， 所 以 如 果 将 
该 求解 问题 移植 到 更 大 的 实际 机 器 上 运行 ， 此 时 可 能 看 到 无 法 接受 的 加 速 比 。 相 反 地 ， 由 于 
问题 本 身 可 能 只 具有 很 少 的 并 行 性 ， 因 此 加 速 比 可 能 较 差 。 例 如 ， 如 果 我 们 能 将 如 gcc 编 译 器 
那样 的 程序 加 速 1 倍 ， 将 会 非常 激动 。 从 理想 角度 而 言 ， 应 该 将 我 们 的 结果 与 其 他 人 的 结果 进 
行 比较 。 即 使 采用 这 样 的 方法 也 还 是 会 有 问题 ， 因 为 许多 的 差异 ， 如 编译 器 优化 、 时 钟 速度 、 
cache 大 小 等 ， 都 可 能 显著 地 影响 结果 ， 使 得 它们 难于 进行 比较 。 

因此 ， 目 标 不 仅仅 是 达到 某 种 程度 的 加 速 比 或 效率 。 目 标 应 该 是 开展 对 程序 行为 的 深层 
次 的 了 解 ， 通 过 回答 以 下 的 问题 就 可 达到 这 一 目标 : 

* 程序 有 那儿 个 阶段 ? 通常 了 解 单个 阶段 的 行为 比 了 解 多 个 阶段 的 合成 行为 要 容易 。 

* 程序 的 每 个 阶段 的 可 扩展 性 是 什么 样 的 ? 通过 使 用 各 种 不 同 的 输入 大 小 有 助 于 对 可 扩展 

性 的 研究 。 此 外 ， 如 果 可 能 ， 也 应 使 用 各 种 不 同 的 机 器 规模 以 及 各 种 不 同 的 机 器 类 型 。 

* 每 个 阶段 的 瓶颈 在 哪里 ? 开销、 竞争 和 闲置 时 间 的 来 源 是 什么 ?有 了 时 直接 测量 这 些 性 能 

的 损失 比较 困难 ， 因 此 需要 编写 代码 以 汇集 有 关 每 个 进程 所 完成 的 工作 量 和 进程 间 的 交 

互 量 的 各 种 统计 。 当 然 ， 如 海 森 堡 测 不 准 原理 所 指出 的 ， 我 们 企图 考察 的 行为 常常 会 

扰 访 行为， 所 以 必须 小 心 。 

* 在 各 个 阶段 存在 有 多 少 并 行 性 ?对 该 问题 的 回答 有 时 候 可 用 分 析 方 法 ， 而 有 时 候 需 使 用 

经 验方 法 。 有 多 少 通信 和 需要 进行 ， 以 及 它们 是 什么 样 的 通信 形式 ? 

“使 用 了 多 少 存储 器 容量 ? 还 有 其 他 什么 资源 被 大 量 使 用 ? 

"为 了 改进 性 能 可 以 进行 哪些 协调 ?在 对 性 能 瓶颈 有 了 了 解 以 后 ， 一 般 就 可 确定 改进 性 能 

的 协调 方法 。 粒 度 大 小 是 否 合适 ? 能 以 何 种 方式 改变 粒度 大 小 ? 

当然 ， 许 多 这 些 问题 只 能 在 特定 的 机 器 环境 下 进行 回答 ， 因 此 在 多 台 机 器 上 实施 上 述 的 
实验 通常 是 饶 有 兴趣 的 。 


11.6 性 能 分 析 


有 时 候 有 可 能 完全 通过 分 析 来 推断 一 个 程序 的 性 能 缺点 ， 虽 然 对 重大 并 行程 序 进行 成 功 
的 程序 分 析 对 我 们 来 讲 可 能 过 于 复杂 ， 但 是 值得 一 试 。 至 少 ， 通 过 程序 分 析 我 们 可 以 发 现 一 
组 潜在 的 性 能 损失 点 ， 对 这 些 点 需要 进行 实验 的 研究 。 
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对 完全 需 顺序 完成 的 大 部 分 计算 进行 检查 是 十 分 明智 的 。 这 些 部 分 在 程序 设计 时 可 能 已 
经 进行 了 仔细 的 考虑 和 解决 ， 但 再 次 对 它们 进行 检查 无 疑 是 明智 的 。 程 序 中 是 否 有 残存 部 分 
是 顺序 的 或 是 只 显示 很 少 并 行 性 ? 如 果 有 的 话 ， 则 是 否 有 其 他 的 求解 方法 ， 也 许 会 涉及 如 并 
行 前 缀 那样 的 技术 ? 

分 析 粒 度 的 问题 也 很 重要 。 子 计算 的 一 个 共性 问题 是 相对 于 开销 它 所 完成 的 工作 太 少 。 
这 种 子 计算 的 例子 包括 如 排队 和 出 队 那 样 的 微小 工作 ， 它 们 所 完成 的 工作 量 很 小 ， 此 外 还 会 
引起 队列 的 拥 塔 。 另 一 个 例子 是 以 并 行 方式 去 完成 微小 的 计算 ， 而 这 个 计算 在 一 个 进程 上 可 
能 完成 的 更 快 。 例 如 ， 假 定 P 个 进程 中 的 每 一 个 含有 一 个 值 ， 计 算 要 求 对 它们 进行 排序 。 在 P 
个 进程 上 进行 并 行 排序 将 导致 大 量 的 进程 间 通信 ， 而 如 果 将 这 些 值 送 到 一 个 进程 上 进行 排序 
可 能 会 快 得 多 。 


11.7 实验 方法 学 


通过 运行 实验 来 寻找 性 能 损失 的 原由 就 如 求解 一 个 神秘 的 事物 。 关 键 的 一 点 是 ， 需 要 有 
一 个 前 提 来 指导 搜索 ， 从 分 析 中 可 能 已 得 到 一 张 性 能 损失 的 候选 原由 表 。 其 他 的 原由 是 负载 
不 平衡 、 锁 竞争 、 过 度 通信 等 ， 这 已 在 第 3 章 中 作 了 论述 。 一 个 好 的 方法 应 是 尽 可 能 地 对 程序 

的 各 个 部 分 进行 集中 测试 

为 了 保证 成 功 ， 强调 再 现 性 是 有 益 的 。 在 通常 的 顺序 调试 时 ， 可 能 需要 在 代码 中 设置 一 
个 断 点 ， 并 从 那里 开始 研究 。 但 并 行程 序 经 常 依赖 于 异步 事件 (特别 是 当 它 们 含有 隐 错 时 )， 
所 以 它们 不 能 随意 在 任何 地 点 停止 。 通 常 的 做 法 是 在 代码 中 设置 一 个 障 栅 ， 为 进行 调试 打印 

出 一 些 值 ， 这 仅 是 为 了 使 问题 不 复 存 在 。 当 然 ， 具 有 一 个 可 再 现 的 状态 以 再 现 和 发 现 bug， 也 
是 非常 关键 的 。 

要 在 一 个 计算 的 中 途 捕 获 一 个 可 再 现 的 状态 ， 我 们 必须 停止 计算 并 编写 状态 的 一 个 一 臻 
性 版 本 ， 这 在 前 面 已 经 作 了 讨论 。 首 选 的 情景 是 寻找 一 个 自然 的 障 栅 ， 在 该 障 机 处 所 有 的 进 
程 都 必须 等 待 ， 障 栅 可 以 设置 成 是 显 式 的 ， 或 是 设置 成 如 归 约 操作 那样 隐 式 的 。 在 这 些 障 栅 
的 设置 处 ,程序 的 停止 或 启动 将 对 定时 产生 最 小 的 扰动 。 如 果 在 这 些 场所 不 便 设置 这 样 的 障 
栅 ， 则 就 需要 进行 障 栅 布 置 的 试验 ， 以 使 它 不 会 隐藏 被 研究 的 行为 。 

例如 ， 如 图 11-1 所 示 的 程序 结构 并 不 含有 任何 显 式 的 障 栅 ， 尽 管 在 归 约 操作 后 有 一 个 隐 
式 的 障 栅 ， 就 辅助 我 们 限制 计算 的 规模 而 言 似乎 过 晚 。 但 我 们 应 注意 到 ， 在 灰色 区 域 处 理 器 
正在 交换 信息 ， 且 很 可 能 它们 正在 更 新 状态 以 确定 是 否 需 要 继续 进行 迭代 。 即 是 说 ， 所 有 控 
制 将 停止 直至 每 个 线程 决定 是 否 要 继续 执行 ， 这 种 决定 是 依据 每 个 线程 的 局 部 计算 或 是 来 自 
一 个 进程 的 广播 值 ， 该 进程 所 完成 的 操作 结果 值 是 所 有 线程 所 需要 的 。 图 11-2 中 给 出 了 图 11-1 
中 计算 的 示意 图 。 其 中 隐 含 的 障 栅 就 是 停止 和 启动 计算 的 所 在 场所 。 

协议 使 计算 运行 直至 遇 到 一 个 障 栅 ， 在 障 机 之 后 立即 捕获 程序 的 状态 并 将 数据 写 和 一 个 
文件 。 该 方法 允许 程序 以 后 障 栅 (post-barrier) 状态 重复 地 重新 启动 。 障 机 并 不 是 瞬时 的 ， 
而 且 它 们 并 不 总 是 处 于 最 理想 的 地 点 。 但 不 管 如 何 ， 这 种 检查 方式 可 限制 测试 程序 ( 感 兴 
段 ) 偏离 实际 程序 的 程度 。 

读 方 法 学 允许 我 们 对 程序 中 的 一 部 分 进行 测试 而 无 需 从 起 点 运行 程序 ， 这 可 能 是 一 个 显 
著 的 简化 。 至 于 其 他 简化 的 可 能 性 就 不 大 了 。 例 如 ， 我 们 可 能 需要 在 足够 多 的 处 理 器 上 执行 
或 是 运行 一 个 足够 大 的 计算 以 产生 我 们 猜想 可 能 导致 性 能 损失 的 行为 。 
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时 间 
图 11-2 图 11-1 结 构 中 忆 = 5 个 进程 时 的 执行 示意 图 。 在 每 次 迭代 测试 时 ， 进 程 根据 数据 交换 情况 (图 中 
以 灰色 表示 ) 决定 是 否 继续 进行 迭代 


11.8 可 移植 性 和 微调 


在 编写 一 个 可 扩展 的 并 行 计算 程序 后 ， 我 们 经 常 希望 它 能 在 各 种 各 样 的 平台 上 运行 。 如 果 
能 够 明确 无 误 地 运用 在 第 2 章 到 第 5 章 中 所 描述 的 那些 原理 ， 那 么 我 们 所 编写 的 程序 应 该 在 大 多 
数 的 并 行 平台 上 能 很 好 地 运行 ， 并 且 可 以 期 待 在 不 同 的 平台 上 获得 类 似 的 性 能 。 但 是 由 于 各 种 
计算 机 在 细节 上 有 所 不 同 ， 因 此 在 一 个 新 的 平台 上 执行 程序 很 可 能 需要 对 程序 进行 微调 。 


11.9 小 结 


本 章 的 论述 的 重点 是 编写 和 调试 并 行程 序 的 过 程 。 虽 然 大 部 分 的 指导 意见 适用 于 任何 规 
模 的 并 行程 序 设 计 ， 但 重点 是 在 规模 较 大 的 课程 设计 。 这 类 课程 设计 比较 复杂 ， 需 要 使 用 并 
慎 的 方法 学 。 我 们 为 程序 设计 、 功 能 调试 以 及 性 能 调试 提供 了 通用 的 指导 原则 ， 这 些 原则 在 
许多 情况 下 都 是 适用 的 。 每 一 种 特殊 的 情况 有 其 自身 的 特征 ， 因 而 在 很 大 程度 上 依赖 于 程序 
” 员 的 智慧 和 技巧 ， 但 是 这 些 指导 原则 将 会 很 有 帮助 。 


历史 回顾 


并 行 检查 点 的 讨论 基于 分 布 计算 社区 所 使 用 中 的 有 效 恢复 线 (valid recovery line) 的 概念 ， 
Elnozahy 等 [2002] 在 他 们 的 综述 中 作 了 描述 。 考 虑 到 通用 性 ， 我 们 没有 强调 并 行程 序 设计 的 工 
县 ， 因 为 它们 会 倾向 于 和 专门 的 程序 设计 设施 (如 OpenMP 或 消息 传递 ) 相 结合 。 不 论 如 何 ， 
坑 励 读者 寻找 与 自己 的 程序 设计 环境 相 兼 容 的 可 用 系统 。 


习题 


1. 以 图 11-1 作 为 指导 ， 描 述 第 4 章 中 图 4-7 内 的 Batcher 按 字母 顺序 排序 算法 的 并 行 结构 。 

2. 以 图 11-1 作 为 指导 ， 描 述 第 4 章 中 图 4-5 内 的 固定 并 行 性 按 字母 顺序 排序 算法 的 并 行 结构 。 

”3. 遵循 起 步 这 一 小 节 中 的 指导 ， 熟 悉 一 台 并 行 计算 机 ， 并 进行 基本 的 定时 测量 。 

4. 对 统计 3 计算 进行 编程 ， 并 在 习题 3 中 的 并 行 计算 机 上 运行 。 

5. 使 用 你 选 定 的 一 个 并 行程 序 ， 计 算 该 程序 可 达到 的 绝对 加 速 比 ， 画 出 该 值 随处 理 器 数 增长 的 变 
化 图 。 


术 语 表 


Amdahls Law ( 阿 姆 达尔 定律 ) ”使 用 并 行 改进 计算 性 能 的 一 种 限制 ， 如 果 1/S 是 完成 顺 
序 工作 所 需 的 计算 时 间 ， 则 对 该 问题 的 并 行 求解 可 能 提供 的 最 大 加 速 比 为 5。 

Atomicity (原子 性 ) ”原子 地 执行 一 串 操作 的 特性 ， 如 果 所 有 的 操作 要 么 全 出 现 要 么 全 不 
出 现 ， 那 么 这 个 操作 的 执行 就 是 原子 的 。 保 证 原子 性 的 通常 方法 是 用 互 斥 体 保护 这 一 串 操 
fe; 一旦 获得 互 斥 体 ， 代 码 将 不 中 断 地 执行 直至 互 斥 体 被 释放 。 

Cache Coherence (cache 一 致 性 ) ”一 种 cache 管 理 协议 ， 在 该 协议 中 当 访 问 一 个 指定 的 
存储 单元 时 ， 各 一 个 处 理 器 的 cache 所 看 到 的 是 一 个 一 致 值 。 

Chapel ”Cray 公 司 正在 开发 的 一 种 并 行程 序 设 计 语言 。 

Cilk 基于 ANSIC 的 一 种 多 线程 并 行程 序 设计 语言 ， 由 MIT ( 麻 省 理工 学 院 ) 开发 。 

Chip Multiprocessor (CMP) (芯片 多 处 理 器 ) ”含有 多 处 理 器 的 单 芯片 ， 也 称 为 多 核 芯 
片 ， 目 前 CMP 的 处 理 器 数 小 于 20 个 。 

Cluster (机 群 ) 主要 由 商品 化 组 件 构 成 的 一 种 并 行 计算 机 ， 这 种 系统 的 规模 能 扩展 到 几 
千 个 处 理 器 。 

Co-Array Fortran Cray 公 司 开发 的 一 种 扩展 Fortran 的 PGAS 语 言 。 

Contention (竞争 ) ”对 共享 资源 的 争 用 ， 将 导致 性 能 的 下 降 。 

Critical Section (临界 区 ) ”必须 访问 共享 数据 的 一 段 代 码 ， 对 该 代码 的 无 纪律 访问 可 能 
导致 竞 态 条 件 的 出 现 。 

Data Dependence (数据 相关 性 ) “在 需要 按 某 种 次 序 进行 存储 器 访问 时 而 引起 的 存在 于 
两 个 控制 线程 间 的 一 种 关系 。 

Data Parallelism (数据 并 行 ) 将 操作 并 行 作用 到 数据 中 不 同 项 上 一 种 计算 。 采 用 数据 并 
行 时 ， 能 同时 完成 的 操作 数 随 数 据 量 的 增加 而 增长 。 

Dependence (相关 性 ) ”两 个 事件 上 的 一 种 顺序 约束 ， 相 关 性 限制 了 计算 的 潜在 并 行 
化 ， 跨 线程 或 进程 边界 的 相关 性 需要 进行 通信 和 /或 同步 。 

Distributed Memory Parallel Computer (分 布 式 存储 器 并 行 计算 机 ) 在 硬件 上 不 实现 
一 个 共享 地 址 空间 的 一 种 并 行 计算 机 。 

Efficiency (效率 ) ”定义 为 加 速 比 /P 的 一 种 性 能 指标 ， 其 中 P 是 处 理 器 数 。 

Embarrassingly Parallel ( 易 并 行 ) ”线程 或 进程 间 只 有 很 少 或 没有 相关 性 的 一 种 计算 。 

Erlang 由 爱立信 计算 机 科学 实验 室 设 计 的 一 种 并 行 函数 式 语言 。 

F-- Co-Array Fortran 的 原名 。 该 名 字 与 Ct+ 名 字 相 对 应 。 

False Sharing ( 假 共 享 ) ”独立 进程 各 自私 有 处 理 的 两 个 对 象 分 配 在 同一 cache 行 上 的 一 
种 现象 ， 它 将 导致 当 一 个 处 理 器 改变 其 在 cache 行 中 的 值 时 ，cache 一 致 性 协议 会 (错误 地 ) 使 
另 一 个 处 理 器 中 的 cache 行 变 为 无 效 。 假 共享 将 使 性 能 下 降 ， 即 使 所 访问 的 数据 是 互相 独立 的 。 

FLOPS (每 秒 浮 点 操作 数 ) ” 它 是 衡量 科学 计算 的 一 种 性 能 指标 ， 它 的 性 能 主要 由 浮 点 
性 能 规定 。 


Fortress _ Sun 公司 研究 人 员 设 计 的 一 种 并 行程 序 设计 语言 。 

Global View Abstractions (全 局 视图 抽象 ) “不论 运行 时 有 多 少 个 进程 数 或 这 些 进 程 如 
何 安排 ， 如 果 给 定 相 同 的 输入 ， 使 用 全 局 视图 抽象 所 书写 的 程序 将 产生 相同 的 输出 。 

GPGPU 在 图 形 处 理 部 件 上 进行 通用 计算 。 

High Performance Fortran (HPF) (高 性 能 Fortran) 扩展 顺序 Fortran 77 和 Fortran 90 的 
一 种 数据 并 行 语 言 ， 在 该 语言 中 加 入 了 描述 如 何在 进程 间 分 布 数据 的 一 些 编译 命令 。 

Idle Time (WERA) 由 于 没有 工作 可 做 或 是 正在 等 待 某 个 事件 而 被 阻塞 ， 进 程 不 能 完 
成 有 用 工作 ， 它 是 导致 低 效 的 一 个 原由 。 

ISA (Instruction Set Architecture) (指令 集体 系 结构 ) ”ISA 是 硬件 的 一 个 接口 ， 它 定义 
了 硬件 需 实现 的 指令 和 数据 类 型 。 

Latency (时 延 ) 对 完成 一 个 计算 所 需 总 时 间 的 一 种 度量 。 该 度量 常 与 吞吐 率 相对 比 。 

Locality (局 部 性 ) “对 程序 的 存储 器 访问 所 期 望 的 一 种 往 聚 特性 ;时间 局 部 性 出 现在 当 
访问 一 个 存储 器 单元 在 时 间 上 显现 出 密集 访问 情况 ， 空 间 局 部 性 出 现在 当 访 问 一 个 存储 单元 
时 显现 出 地 址 密集 的 情况 。 

Load Imbalance (负载 不 平衡 ) ” 低 效 的 一 个 原由 ， 由 于 各 个 进程 完成 不 同 的 工作 量 导 
致 某 些 进程 完成 执行 远 先 于 其 他 进程 ， 从 而 形成 闲置 进程 的 出 现 。 

Local View Abstractions 〈 局 部 视图 抽象 ) ”依赖 于 运行 时 的 进程 数 或 这 些 进 程 的 布置 ， 
并 行程 序 设 计 工 具 将 会 产生 不 同 的 输出 。 

Memory Controller (存储 器 控制 器 ) CPU (包括 它 的 片上 cache 和 DRAM) 间 的 接口 ， 
它 有 助 于 对 存储 器 的 高 效 访问 ， 控 制 器 完成 如 缓存 未 完成 的 存储 器 写 那样 的 操作 ， 以 减少 为 
等 待 存 储 器 写 操作 完成 而 导致 CPU 停顿 的 可 能 ， 

MIMD 弗 林 分 类 中 的 一 种 多 指令 流 多 数据 流 计算 机 ， 通 常 是 指 并 行 计算 机 ， 它 的 主要 特 
性 是 每 个 ALU 执 行 自己 的 指令 流 。 

Moore s Law (EREE) ”英特尔 公司 创建 人 区 顿 - 摩尔 提出 的 一 个 预测 ， 即 芯片 上 晶 
体 管 的 密度 大 约 每 18 个 月 增加 一 倍 ， 随 着 工艺 的 进展 ， 半导体 工业 界 一 再 发 现 芯片 的 发 展 遵 
循 这 一 指导 路 线 。 

Multi-core Chip (多 核 芯片 ) 含有 多 个 处 理 器 的 单个 芯片 ， 也 称 为 芯片 多 处 理 器 或 
CMP; 目前 这 种 芯片 含有 的 处 理 器 数 小 于 20 个 。 

Mutual Exclusion ( 互 斥 ) ”一 段 代码 段 的 特性 ， 它 能 保证 在 任何 时 间 将 只 有 一 个 线程 执 
行 该 段 代码 ， 经 常 借助 互 斥 代码 不 能 为 其 他 线程 所 中 断 这 一 特性 来 提供 原子 性 。 

Nw 对 于 给 定 的 程序 和 机 器 ， 为 获得 1/2 的 效率 所 需 的 问题 规模 。 

NESL RAZ - 梅 隆 大 学 开发 的 一 种 能 提供 幅 套 并 行 的 并 行 函数 式 语言 。 

NUMA Architecture ( 非 一 致 存储 器 访问 体系 结构 ) ” NUMA 体系 结构 实现 了 一 个 共享 地 
址 空间 ， 由 于 存储 器 在 物理 上 是 分 布 的 ， 因 此 对 存储 器 的 访问 时 间 是 不 一 致 的 ， 处 理 器 本 地 
存储 器 的 时 延 低 于 非 本 地 的 存储 器 。 

Overhead (开销 ) ”在 相应 的 顺序 计算 不 会 出 现 的 任何 并 行 计算 的 代价 。 它 是 引起 并 行 
程序 性 能 损失 的 四 个 基本 原因 之 一 。 

P 并 行 机 中 处 理 器 数 的 缩写 。 

Parallel Virtual Machine (PVM) 〈 并 行 虚拟 机 ) ”一 种 消息 传递 接口 ， 它 的 许多 概念 后 
来 被 融入 到 MPI 标 准 中 。 
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PGAS Languages (分 区 的 全 局 地 址 空间 语言 ) ”一 种 分 区 的 全 局 地 址 空间 并 行程 序 设 计 
语言 ， 这 种 语言 提供 了 一 个 为 所 有 进程 共享 的 单一 地 址 空间 。 因 此 在 所 有 进程 中 可 用 相同 名 
字 访 问 一 个 对 象 ， 该 全 局 地 址 空间 并 不 意味 它 是 一 个 一 致 的 存储 器 。 

P-Independence (P- 独 立 ) “一 个 并 行程 序 是 P- 独 立 的 ， 当 且 仅 当 在 相同 的 输入 下 总 是 
产生 相同 的 输出 ， 而 不 论 在 程序 上 有 多 少 个 进程 在 运行 以 及 这 些 进程 是 如 何 布置 的 。 

Pipelining (流水 化 ) “一 种 并 行 化 形式 ， 它 将 一 个 计算 分 解 成 一 系列 按 序 执行 的 子 计 
算 ， 只 要 有 足够 的 资源 ， 每 个 子 计算 就 能 在 不 同 的 问题 实例 上 同时 执行 ， 从 而 可 改进 吞吐 率 。 

PRAM (并 行 随机 访问 机 ) ” 它 是 并 行 计算 机 的 一 种 理想 模型 ， 该 模型 假设 对 共享 存储 器 
的 访问 时 间 和 同步 执行 时 间 为 一 个 单位 时 间 。 

Process (进程 ) 包含 自己 地 址 空间 的 一 个 并 行 单 位 。 

Processor (处 理 器 ) 并 发 性 的 一 个 物理 部 件 ， 又 称 为 CPU 〈 中 央 处 理 部 件 ) 。 

Race Condition 〈 竞 态 条 件 ) 程序 的 输出 依赖 于 不 可 预测 的 定时 行为 的 一 种 情况 。 

Reduce ( 归 约 ) ”将 一 个 函数 作用 到 一 个 集合 值 以 产生 单个 结果 的 一 种 操作 ， 通 常 这 类 
函数 是 可 以 结合 和 交换 的 ， 包 括 加 、 乘 、 最 大 值 和 最 小 值 。 

Relative Speedup (相对 加 速 比 ) ”并 行 性 能 的 一 种 度量 ， 其 中 用 P=1 个 处 理 器 的 并 行 执 
行 时 间 替 代 最 好 的 顺序 执行 时 间 到 。 

Relaxed Memory Consistency (松弛 存储 器 一 致 性 ) ”并 行 处 理 器 的 一 种 特性 ， 其 中 一 
个 执行 所 产生 的 结果 并 非 是 顺序 一 致 的 。 

Scan (扫描 ) ”将 一 个 函数 作用 到 一 个 有 序 集 合 值 以 产生 所 有 前 缀 的 一 种 操作 ， 其 中 第 i 
个 前 缀 是 将 该 函数 作用 到 前 斋 所 产生 的 结果 ， 也 称 为 并 行 前 绿 操 作 符 ， 该 函数 与 归 约 类 似 ， 
通常 为 加 、 乘 、 最 大 值 和 最 小 值 。 

Sequential Consistency (顺序 一 致 性 ) ”并 行 处 理 器 的 一 种 特性 ， 即 任何 执行 所 产生 的 
结果 将 与 按 下 列 规则 执行 的 结果 相 吻 合 ， 应 遵循 的 规则 是 : (1) 所 有 处 理 器 的 操作 以 某 种 顺 
序 次 序 执行 ，(2) 每 个 处 理 器 的 操作 按 程序 所 说 明 的 次 序 出 现 。 

Shared Address Space Parallel Computer (共享 地 址 空间 并 行 计算 机 ) ”一 种 并 行 计算 
机 ， 其 硬件 允许 所 有 处 理 器 访问 一 个 单一 共享 地 址 空间 ， 这 种 机 器 通常 需 实现 cache 一 致 性 。 

SIMD ” 弗 林 分 类 中 的 一 种 单 指令 流 多 数据 疲 计算 机 ， 也 指向 量 处 理 器 ， 在 其 中 由 一 条 指 
令 控制 多 个 ALU 以 锁 步 方式 执行 。 

SISD “” 弗 林 分 类 中 的 一 种 单 指令 流 单 数据 流 计算 机 ， 通 常 是 指 顺序 计算 机 或 汉 . eRe 
计算 机 。 

SMP (Symmetric Multiprocessor) (对 称 多 处 理 器 ) ”一 种 共享 地 址 空间 并 行 计算 机 ， 其 
中 的 存储 器 时 延 与 请 求 访问 的 处 理 器 无 关 ， 因 此 所 有 处 理 器 所 看 到 的 存储 器 视图 是 对 称 的 。 

Speedup (加 速 比 ) ”对 并 行 性 能 的 一 种 度量 ， 对 于 给 定 的 一 个 计算 ， 执 行 最 快 的 顺序 程 
序 所 需 的 时 间 Ts 与 在 P 个 处 理 器 上 执行 并 行程 序 所 需 时 间 Tz 两 者 的 比值 ， 通 常 以 相对 于 x 轴 上 
的 P 值 所 画 得 曲线 加 以 表示 。 

SPMD 指明 为 单个 程序 的 一 个 并 行程 序 在 不 同 的 处 理 器 上 被 执行 ， 如 其 所 名 ， 即 单程 序 
多 数据 ， 偶尔 会 与 IMD 混 清 ， 但 SIMD 是 硬件 分 类 ， 而 SPMD 是 软件 分 类 。 

Superlinear Speedup ( 超 线性 加 速 比 ) ”在 P 个 处 理 器 上 获得 大 于 P 倍 的 加 速 比 ， 其 效率 
大 于 1。 

Task Parallel (任务 并 行 ) ”任务 并 行 计算 是 通过 对 功能 进行 划分 而 获得 并 行 性 的 一 种 计 


算 ， 因 此 被 划分 的 功能 能 并 发 地 完成 。 

Thread (Æ) ”一 种 并 行 单 位 ， 逻 辑 上 由 一 段 程序 代码 、 一 个 程序 计数 器 、 一 个 调用 堆 
楼 以 及 包括 一 组 通用 寄存 器 在 内 的 某 些 适 量 状态 所 组 成 ; 在 基于 线程 的 并 行程 序 设 计 中 ， 线 
程 共享 对 存储 器 的 访问 。 

Throughput (FHER) ”对 在 单位 时 间 内 所 完成 工作 量 的 一 种 度量 ， 该 度量 常 与 时 延 相对 比 。 

Titanium 加州 大 学 伯克利 分 校正 在 开发 的 一 种 扩展 Java 语 言 的 PGAS 语 言 。 

Transactional Memory (事务 存储 器 ) ” 受 数据 库 中 事务 概念 启发 而 研制 的 一 种 并 发 性 控 
制 系统 ， 以 控制 共享 存储 器 中 并 行程 序 的 存储 器 操作 。 

UMA (Uniform Memory Access) Architecture (一 致 存储 器 访问 体系 结构 ) ”一 种 共享 
地 址 空间 体系 结构 ， 如 SMP， 在 其 中 对 存储 器 的 访问 时 间 是 与 请 求 访问 的 处 理 器 无 关 的 ， 与 
NUMA 体 系 结构 相对 应 。 

Unified Parallel C (UPC) (统一 的 并 行 C 语 言 ) 由 乔治 . 华盛顿 大 学 开发 的 扩展 C 语 言 
的 PGAS 语 言 。 

X10 IBM 正 在 设计 的 一 种 并 行程 序 设计 语言 。 

ZPL 由 华盛顿 大 学 开发 的 一 种 数据 并 行 数 组 语言 。 
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